Đồ án: Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng
Đồ án Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng giới thiệu về khai phá tri thức và khai phá dữ liệu; tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian 2, 3 chiều và cài đặt thuật toán thử nghiệm.
Mục lục nội dung
1. Mở đầu
Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lưu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh. Số lượng dữ liệu khổng lồ được tập trung và lưu trữ trong cơ sở dữ liệu trên các thiết bị điện tử như: đĩa cứng, băng từ, đĩa quang,… Tốc độ tăng dữ liệu quá lớn . Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa. Dữ liệu sau khi phục vụ cho một mục đích nào đó được lưu lại trong kho dữ liệu và theo ngày tháng khối lượng dữ liệu được lưu trữ ngày càng lớn. Trong khối lượng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chưa biết. Từ khối lượng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích. Một hướng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining).
2. Nội dung
2.1 Khai phá tri thức và khai phá dữ liệu
Giới thiệu chung về khai phá tri thức và khai phá dữ liệu
Quá trình khai phá tri thức
Quá trình khai thác dữ liệu.
Các phương pháp khai phá dữ liệu
Các lĩnh vực ứng dụng thực tiễn của khai phá dữ liệu
Các hướng tiếp cận trong khai phá dữ liệu
Phân loại các hệ khai phá dữ liệu
Các thách thức - khó khăn trong khai phá tri thức và khai phá dữ liệu
2.2 Phương pháp khai phá tập phổ biến
Giới thiệu
Giới thiệu một số thuật toán khai phá tập phổ biến
- Thuật toán Apriori
- Thuật toán Freespan
Tóm tắt
2.3 Tìm hiểu phương pháp khai phá
Phương pháp khai phá tập phổ biến đóng trong không gian 2 chiều
- Tổng quan
- Sự chuẩn bị
- Tiến bộ của phương pháp khai phá tập phổ biến đóng
- Khung cải tiến cho khai phá tập phổ biến đóng.
- Thuật toán C - Miner
- Thuật toán B - Miner
- Khai phá tập phổ biến đóng song song
- Độ phức tạp thời gian
Phương pháp khai phá tập phổ biến đóng trong không gian 3 chiều
- Tổng quan
- Sự chuẩn bị
- Thuật toán khai phá lát đại diện(RSM)
- Thuật toán CubeMiner
- Khai phá FCC song song
- Độ phức tạp thời gian
Tóm tắt
2.4 Cài đặt thuật toán thử nghiệm
Giới thiệu về chương trình
Giao diện chương trình
Các thành phần và chức năng trong chương trình
Kết quả thực nghiệm
3. Kết luận
Hiện nay, con người đang chìm ngập trong tri thức nhưng lại rất thiếu thốn thông tin, với lượng dữ liệu lớn và phức tạp như hiện nay thì nhu cầu khai phá tri thức trở nên rất thiết yếu với con người. Đồ án đã giới thiệu được tổng quát về khá phá tri thức và khai phá dữ liệu, các hướng tiếp cận chính trong khai phá tri thức, các lĩnh vực ứng dụng khai phá tri thức trong thực tế. Ngoài ra đồ án còn đề cập đến một số phương pháp khai phá dữ liệu dạng đóng được ứng dụng trong nhiều lĩnh vực thực tế hiện nay (phân tích thị trường, phân tính sinh học,…). Cụ thể là các thuật toán C - Miner và B - Miner trong khai phá bộ dữ liệu 2 chiều, và RSM và CubeMiner trong khai phá bộ dữ liệu 3 chiều.
4. Tài liệu tham khảo
Ji Liping (Bachelor of Management, Nanjing University, China): Mining Localized co-expressed gene patterns from microarray data, A dissertation submitted for the degree of philosophy at national university of Singapore school of computing june 2006.
Andrew Kusiak Intelligent Systems Laboratory 2139 Seamans Center The University of Iowa Iowa City, Iowa 52242 – 1527: Association Rules The Apriori Algorithm.
Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U. and Hsu, M: Frequent patternprojected sequential pattern mining.
Nguyễn Đức Cường – Khoa Công Nghệ Thông Tin – Đại học Bách Khoa Thành Phố Hồ Chí Minh: Tổng quan về khai phá dữ liệu.