Luận văn ThS: Khai thác mẫu tuần tự nén
Luận văn Khai thác mẫu tuần tự nén nghiên cứu mô hình mã hóa dữ liệu tuần tự, mã Huffman, mã Elias; nghiên cứu thuật toán SeqKrimp; nghiên cứu thuật toán GoKrimp để khai phá trực tiếp trên mẫu nén; tiến hành thực nghiệm trên các 8 bộ dữ liệu khác nhau và đánh giá kết quả.
Mục lục nội dung
1. Mở đầu
1.1 Đặt vấn đề
Vấn đề khai thác mẫu tuần tự phổ biến từ cơ sở dữ liệu tuần tự đã được ứng dụng thành công trong lĩnh vực khai thác dữ liệu. Trong những năm gần đây nhiều công trình khai thác mẫu tuần tự đóng đã đóng góp nhiều ứng dụng cụ thể cho lĩnh vực khai thác dữ liệu. Tuy vậy khi quan sát 20 mẫu tuần tự phổ biến đóng được trích ra từ tập dữ liệu Journal of Machine Learning Research (JMLR), bộ dữ liệu này chứa cơ sở dữ liệu của 787 cụm từ, mỗi cụm từ tương ứng với tóm tắt của một bài báo trong JMLR có nhận xét rằng:
- Mẫu trùng lắp mặc dù có độ hỗ trợ cao ví như mẫu algorithm algorithm
- Mẫu tối nghĩa ví như hai mẫu learn algorithm và algorithm learn nếu mẫu này có nghĩa thì mẫu kia tối nghĩa
- Mẫu dư thừa, rườm rà ví như mẫu algorithm algorithm algorithm
1.2 Mục tiêu nghiên cứu
Mục tiêu đề tài là đi tiếp theo của ý tưởng MDL (mô tả chiều dài tối thiểu) để đưa ra đặc tả ngữ cảnh của dữ liệu tuần tự. Và đặc biệt trọng tâm là việc lấy ý tưởng MDL để khám phá mẫu tuần tự nén đáng quan tâm, có nghĩa và khả dụng.
1.3 Phương pháp nghiên cứu
Phương pháp luận: Nghiên cứu về lý thuyết các thuật toán có liên quan đến đề tài cùng với các khái niệm đi kèm, trong mỗi thuật toán giải thích ý nghĩa, cho ví dụ minh họa từng bước giải quyết của thuật toán.
Phương pháp nghiên cứu: Đọc hiểu về lý thuyết cách mã hóa dữ liệu, tìm chọn mô hình mã hóa tối ưu dữ liệu, từ đó sẽ cho hiệu quả nén tốt để kết quả đưa ra những mẫu dễ hiểu hơn, giảm dư thừa và khả dụng.
2. Nội dung
2.1 Cơ sở lí thuyết
Mã Huffman
- Mã tiền tố
- Cây nhị phân biểu diễn từ mã
Khai thác mẫu tuần tự nén
- Khai thác mẫu tuần tự đóng
- Nguyên lý nén dữ liệu
Phương pháp mã hóa dữ liệu
- Mã hóa và giải mã số tự nhiên
- Phương pháp nén và hiệu quả nén
Mã hóa và giải mã một dãy các từ
Bài toán tìm mẫu nén
- Định nghĩa (Bài toán nén dãy)
- Kết luận
2.2 Thuật toán khai thác mẫu nén
Thuật toán SeqKrimp
- Thuật toán lấy mẫu tuần tự đóng GetCandidate
- Thuật toán so khớp với chi phí tối thiểu MinGapMatch
- Thuật toán tính hiệu quả nén Compress
- Thuật toán khai thác mẫu nén SeqKrimp
Thuật toán GoKrimp
- Kiểm tra sự kiện có liên quan
- Thuật toán nới rộng mẫu GetNextPattern
- Thuật toán khai thác trực tiếp mẫu nén GoKrimp
2.3 Thực nghiệm và kết luận
Bộ dữ liệu thử nghiệm
- Bộ dữ liệu JMLR
- Bộ dữ liệu Parallel
Thời gian thực thi
Độ chính xác phân lớp
Tính nén
Hiẹu lực của sự kiện liên quan
3. Kết luận
Các mô hình khai thác chuỗi tuần tự nén thường được thực hiện trên các cơ sở dữ liệu khác nhau trên thế. Tuy nhiên, hầu hết các cơ sở dữ liệu thế giới thực cập nhật với tiến bộ của thời gian. Qua nghiên cứu một số thuật toán khai thác mẫu tuần tự nén SeqKrimp và GoKrimp ta nhận thấy, thuật toán GoKrimp đã đạt được nhiều cải tiến về mặt thời gian thực hiện các mẫu nén và các mẫu nén được trích ra tỏ ra hữu dụng hơn, giảm thiểu khả năng trùng lắp của các mẫu kết quả. Tác giả luận văn cũng đã hiểu và xây dựng được các ví dụ cụ thể cho từng thuật toán nhằm giúp người đọc dễ tiếp cận các thuật toán hơn.
4. Tài liệu tham khảo
D. Chakrabarti, S. Papadimitriou, D. Modha, and C. Faloutsos, “Fully automatic cross-associations”, KDD, 2004, 79–88. Statistical Analysis and Data Mining DOI:10.1002/sam 52 Statistical Analysis and Data Mining, Vol. 7 (2014)
D. Fradkin and F. Moerchen, Margin-Closed “Frequent Sequential Pattern Mining”, Workshop on Mining Useful Patterns, KDD, 2010.
D. Huffman, “A method for the construction of minimumredundancy codes”, Proc IRE 40(9) (1952), 1098–1102.
H. T. Lam, F. Moerchen, D. Fradkin, and T. Calders , “Mining Compressing Sequential Patterns”, Statistical Analysis and Data Mining: The ASA Data Science Journal, Volume 7, Issue 1, pages 34–52, February 2014.....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI