Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp

Luận văn Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp nghiên cứu thuật toán CAR-Miner và thuật toán CARIM; tìm hiểu về các độ đo lợi ích và kỹ thuật kiểm tra chéo (k-fold crossvalidation); nghiên cứu cách thức áp dụng các độ đo lợi ích để khai thác CARs; thực nghiệm khảo sát các độ đo lợi ích lên độ chính xác trong khai thác CARs.

Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp

1. Mở đầu

1.1 Tính cấp thiết

Gần đây, một phương pháp mới về phân lớp trong khai thác dữ liệu được gọi là phân lớp dựa trên sự kết hợp (CBA), được đưa ra để khai thác luật phân lớp kết hợp (CARs). Phương pháp này thường có độ chính xác cao hơn so với phương pháp C4.5 và ILA. Vì vậy một số thuật toán để khai thác luật phân lớp dựa trên khai thác luật kết hợp được phát triển trong những năm gần đây như: phân lớp dựa trên luật kết hợp đoán trước, phân lớp dựa trên nhiều luật kết hợp, phân lớp dựa trên sự kết hợp, phân lớp đa lớp dựa trên luật kết hợp, v.v. Tuy nhiên những phương pháp trên chỉ tập trung chủ yếu trong việc xây dựng thuật toán phân lớp dựa trên luật kết hợp hoặc xây dựng luật phân lớp mà không thảo luận nhiều về vấn đề thời gian thực thi (khai thác) của các thuật toán. Hơn thế nữa, khai thác phân lớp dựa trên luật kết hợp (CARs) tiêu tốn rất nhiều thời gian bởi vì nó khai thác một tập đầy đủ các luật thỏa ngưỡng. Vì thế, cải thiện thời gian khai thác phân lớp dựa trên luật kết hợp là một trong những vấn đề chính cần được giải quyết.

1.2 Mục tiêu nghiên cứu

Đề tài nghiên cứu thuật toán CAR - Miner, thuật toán CARIM, các độ đo lợi ích và khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa vào luật kết hợp sử dụng kỹ thuật k - fold crossvalidation.

1.3 Phương pháp nghiên cứu

Tìm hiểu các tài liệu trong và ngoài nước về khai thác luật phân lớp và luật kết hợp. Nghiên cứu thuật toán CAR - Miner trong bài toán phân lớp dựa vào luật kết hợp và áp dụng các độ đo lợi ích đẻ tạo ra các tập luật trong thuật toán CARIM.

Tìm hiểu các độ đo lợi ích và khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa vào luật kết hợp sử dụng kỹ thuật k - fold cross - validation.

2. Nội dung

2.1 Tổng quan

Khai thác luật phân lớp

Khai thác luật kết hợp

Khai thác luật phân lớp dựa vào khai thác luật kết hợp

Độ đo lợi ích

2.2 Thuật toán CAR-Miner và CARIM

Giới thiệu tổng quan 

Các định nghĩa và mệnh đề

Cấu trúc cây MECR

Thuật toán CAR - Miner

Thuật toán CARIM

2.3 Khảo sát ảnh hưởng

k-fold cross-validation

Độ chính xác

Kết quả thực nghiệm

3. Kết luận

Luận văn đã khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luất kết hợp. Thực tế, các khái niệm này đã được sử dụng riêng rẻ trong các công trình trước đây nhưng lại chưa có khảo sát liên quan đến ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luất kết hợp. Một số đóng góp cụ thể như sau:

  • Nghiên cứu thuật toán CAR-Miner.
  • Nghiên cứu thuật toán CARIM.
  • Tìm hiểu về các độ đo lợi ích.
  • Tìm hiểu về kỹ thuật kiềm tra chéo (k-fold cross-validation).
  • Nghiên cứu cách thức áp dụng các độ đo lợi ích để khai thác CARs.
  • Thực nghiệm khảo sát các độ đo lợi ích lên độ chính xác trong khai thác CARs.

4. Tài liệu tham khảo

Ross Quinlan (1986): "Induction of Decision Trees", Machine Learning 1(1), (pp. 81-106).

Gregory Piatetsky-Shapiro (1991): "Discovery, analysis, and presentation of strong rules", Knowledge Discovery in Databases, (pp. 229–248)

Ross Quinlan (1992): "C4.5: programs for machine learning", Machine Learning 16, (pp. 235-240)

Rakesh Agrawal, Ramakrishnan Srikant (1994): "Fast algorithms for mining association rules", in VLDB’94, (pp. 487–499)....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:04/09/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM