Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch

Luận văn Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch giới thiệu tổng quan và cơ sở lí thuyết; khai thác mẫu phổ biến tối đại và thực nghiệm.

Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch

1. Mở đầu

1.1 Mục tiêu nghiên cứu

Đưa ra các bước thực nghiệm cần thiết để đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán MWFIM. Đánh giá thuật toán khai thác cải tiến mới. So sánh hiệu quả của tác giả và thuật toán cải tiến. Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác mẫu trọng số phổ biến tối đại MWFIM so với mã giả của các thuật toán đưa ra trong các bài báo. Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố. Qua đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu có.

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu:

  • Thuật toán khai mẫu trọng số phổ biến tối đại như: MWFIM của U.Yun.
  • Khai thác độ hỗ trợ bằng kỹ thuật Diffsets.
  • Dữ liệu mẫu như: Chess, mushroom, connect, MS1_itemset_mining.
  • Nghiên cứu ngôn ngữ C#

Phạm vi nghiên cứu: Có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác mẫu trọng số phổ biến tối đại trên dữ liệu tĩnh (dữ liệu không có biến động), dữ liệu nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn (chưa thử nghiệm trên dữ liệu thực), việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chưa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng). Việc xử lý dữ liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán).

1.3 Phương pháp nghiên cứu

Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.

Tìm hiểu các thuật toán hiện có để đánh giá các ưu, nhược điểm của từng thuật toán.

Nghiên cứu phương pháp khắc phục nhược điểm của thuật toán cũ

2. Nội dung

2.1 Tổng quan và cơ sở lí thuyết

Các khái niệm và định nghĩa

  • Tổng quan về khai thác luật kết hợp
  • Phương pháp Apriori
  • Phương pháp IT - tree 
  • Phương pháp FP - tree

Tổng quan về khai thác luật kết hợp trên cơ sở dữ liệu được đánh trọng số

  • Định nghĩa và tính chất của tập được đánh trọng số
  • Thuật toán khai thác dựa trên WIT - tree

Khai thác mẫu phổ biến tối đại MFP

2.2 Khai thác mẫu phổ biến tối đại

Tổng quát khai thác tập phổ biến trọng số tối đại

  • Mẫu trọng số phổ biến tối đại
  • Ví dụ

Phương pháp khai thác MWFP

Nghiên cứu liên quan

Giới thiệu Diffset

Thuật toán dựa trên Diffset

  • Thuật toán WIT - FWI - DIFF dựa trên Diffset
  • Khai thác MWFIM_DIFF dựa trên Diffset

2.3 Thực nghiệm và đánh giá

Môi trường thực nghiệm

Kết quả thực nghiệm

3. Kết luận

Trong những cơ sở dữ liệu dày đặc, kích thước của Diffset là nhỏ hơn so với Tidset. Vì vậy, sử dụng Diffset sẽ tiêu tốn ít dung lượng bộ nhớ, không gian lưu trữ giảm đáng kể và do đó cho phép các máy tính nhanh độ hỗ trợ của các itemset. Thuật toán phù hợp với tất cả các loại cơ sở dữ liệu, nhưng đặc biệt hiệu quả khi khai thác với những cơ sở dữ liệu mà mật độ trùng lắp giữa các giao dịch là lớn hoặc vừa được thu thập từ thông tin trạng thái của người chơi trong các game (chứa các nước đi của người chơi), hoặc Mushroom chứa các bản ghi mô tả đặc điểm của các loài nấm khác nhau.

4. Tài liệu tham khảo

Agrawal at al. (1993). Mining Association Rule between sets of items in large databases. ACM SIGMOD Record 22 (2) 207-216

Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In: VLDB’94 (pp. 487-499)

Cai, C. H., Fu, A. W., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp. 68-77)

Ramkumar, G. D., Ranka, S., & Tsur, S. (1998). Weighted association rules: Model and algorithm. In: SIGKDD’98 (pp. 661-666)....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:04/09/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM