Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
Luận văn Sử dụng cây quyết định để phân loại dữ liệu nhiễu giới thiệu tổng quan về khai thác và phân loại dữ liệu; tìm hiểu và sử dụng cây quyết định; thực nghiệm và đánh giá kết quả.
Mục lục nội dung
1. Mở đầu
1.1 Mục đích nghiên cứu
Áp dụng cây quyết định để phân loại dữ liệu nhiễu. Đưa ra thuật toán dựa trên cây quyết định để có thể khai thác các dữ liệu bị nhiễu từ đó đưa được ra các thông tin hữu ích.
1.2 Đối tượng phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là dữ liệu nhiễu và thuật toán cây quyết định.
Phạm vi của đề tài là thuật toán khai thác dữ liệu nhiễu dựa trên cây quyết định
1.3 Phương pháp nghiên cứu
Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.
Nghiên cứu tổng quan về dữ liệu nhiễu và các khái niệm có liên quan.
Nghiên cứu về cây quyết định và các thuật toán khai thác dữ liệu dựa trên cây quyết định
Nghiên cứu áp dụng thuật toán dựa trên cây quyết định để phân loại dữ liệu nhiễu hiệu quả.
Xây dựng chương trình demo và đánh giá kết quả đạt được
2. Nội dung
2.1 Tổng quan
Giới thiệu
- Các vấn đề liên quan đến phân lớp dữ liệu
- Các phương pháp đánh giá độ chính xác của mô hình phân lớp
Cây quyết định
- Cây quyết định
- Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định
- Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu
- Xây dựng cây quyết định
Các thuật toán xây dựng cây quyết định
- Tư tưởng chung
- Thuật toán ID3
- Thuật toán C4.5
2.2 Sử dụng cây quyết định
Giới thiệu
Cây quyết định Credal
Thuật toán N.C4.5
2.3 Thực nghiệm – đánh giá kết quả
Bộ dữ liệu
Đánh giá thực nghiệm
3. Kết luận
Phân loại dữ liệu nhiễu là một lĩnh vực quan trọng của khái thác dữ liệu. Luận văn đã đưa được ra một phương pháp xây dựng cây quyết định gọi là NC4.5. Phương pháp này có nhiều cải tiến so với thuật toán C4.5 bằng cách sử dụng xác suất mơ hồ và đo lường không chắc chắn. Do vậy nó hoạt động hiệu quả hơn các thuật toán trước đây trong việc khai thác dữ liệu nhiễu. Kết quả thực nghiệm cho thấy thuật toán NC4.5 có cải tiến so với các thuật toán trước đây về hiệu quả, độ chính xác và kích thước cây quyết định trong việc phân loại dữ liệu nhiễu. Nó là một phương pháp phù hợp để phân loại những dữ liệu nhiễu.
4. Tài liệu tham khảo
Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM).
Abellán, J., & Moral, S. (2003). Building classification trees using the total uncertainty criterion. International Journal of Intelligent Systems, 18(12), 1215–1225
Abellán, J., & Moral, S. (2005). Upper entropy of credal sets. Applications to creedal classification.International Journal of Approximate Reasoning, 39(2– 3), 235–255
Abellán, J. (2006). Uncertainty measures on probability intervals from Imprecise Dirichlet model.International Journal of General Systems, 35(5), 509–528....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI