Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
Luận văn Nhận biết chủ đề của tài liệu dựa trên Wikipedia khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lưu trữ trong Wikipedia; khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia; phát triển (trên cơ sở kế thừa) hoặc cải tiến một phương pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia; thực nghiệm, đánh giá và viết báo cáo
Mục lục nội dung
1. Mở đầu
1.1 Lí do chọn đề tài
Wikipedia chính thức bắt đầu vào ngày 15 tháng 01 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger cùng với vài người cộng tác nhiệt thành và chỉ có phiên bản tiếng Anh. Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6.000 người đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng. Tính đến ngày nay đã có 4.847.953 bài viết tiếng Anh, 763.384.059 chỉnh sửa, 24.524.565 người dùng đăng ký và 1.358 nhà quản trị (Cập nhật 30-3-2015). Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới. Do số lượng bài viết ngày càng tăng, người dùng khó có thể tìm kiếm tài liệu một cách nhanh chóng và phân loại tiêu đề theo mong muốn. Vì thế, một thách thức mới được đặt ra là làm thế nào để nhận biết chủ đề có trong một tài liệu văn bản một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động được chúng.
1.2 Mục tiêu nghiên cứu
Mục tiêu của việc nhận diện chủ đề của văn bản nhằm để tìm nhãn hoặc phân nhóm, có thể giúp mô tả tốt nhất về vấn đề cốt lõi của văn bản phục vụ cho việc phân loại và xếp nhóm. Tìm ra đƣợc những danh mục có trọng số phù hợp với bài báo một cách tự động và đạt độ chính xác cao.
1.3 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu mô tả cách thức làm việc Wikipedia, cách thức phân nhóm của Wikipedia.
Phương pháp thu thập số liệu: thống kê tổng số phân nhóm trong Wikipedia tiếng Anh và tiếng Việt tính đến ngày 03/03/2015.
Phương pháp thực nghiệm: tiến hành phân loại và xếp nhóm đối với số tài liệu để tìm ra những tài liệu thuộc phân loại của Wikipedia.
2. Nội dung
2.1 Nghiên cứu tổng quan
Tình hình nghiên cứu trên thế giới
Tình hình nghiên cứu trong nước
Tóm lược
2.2 Phương pháp nhận biết và rút trích chủ đề
Khái niệm về Wikipedia
- Những ưu điểm của mô hình Web Wiki
- Wikipedia hoạt động như thế nào
- Kiểu cách và định dạng
- Thực thể trong Wikipedia
- Thể loại
- Kiến trúc Wikipedia
Phương pháp nghiên cứu đề nghị
- Hướng nghiên cứu chính của luận văn
- Việc chuẩn bị thu thập
- Nhận diện chủ đề của tài liệu
Một số cải thiện của phương pháp đề xuất
2.3 Thực nghiệm và đánh giá
Tiến hành thực nghiệm
- Môi trường thực nghiệm
- Nguồn dữ liệu
- Cấu trúc cơ sở dữ liệu
Thực hiện chương trình
- Gỡ bỏ các từ vô nghĩa
- Tính trọng số của các từ trong tài liệu
- Tính trọng số của tiêu đề của tài liệu
- Tính trọng số cao nhất của tài liệu
- Tính trọng số của danh mục
- Chọn danh mục phù hợp cho bài báo với trọng số của chúng
Chương trình thực nghiệm
Trường hợp thành công và thất bại
Đánh giá
- Dữ liệu đánh giá
- Độ chính xác của chương trình
Độ phản hồi của chương trình
Kết luận
3. Kết luận
Luận văn đã giải quyết được những nhiệm vụ mà luận văn đã đưa ra:
- Khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lưu trữ trong Wikipedia
- Khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia
- Phát triển (trên cơ sở kế thừa) hoặc cải tiến một phương pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia.
- Thực nghiệm, đánh giá và viết báo cáo.
Qua những kết quả thực nghiệm đạt được cho thấy đề tài nhận biết chủ đề của tài liệu dựa trên Wikipedia là khả thi và có thể áp dụng được. Giúp tìm ra các danh mục phù hợp cho các bài báo một các tự động và đạt độ chính xác cao.
4. Tài liệu tham khảo
Nguyễn Chánh Thành (2010). Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, Luận án tiến sĩ kỹ thuật. Đại học Bách khoa TP.HCM.
Đinh Quang Định (2013). Nghiên cứu công nghệ Web 3.0 (Semantic Web) và khả năng triển khai áp dụng. Học viện công nghệ bưu chính viễn thông
Phạm Đình Hồng (2013). Nghiên cứu phương pháp phân nhóm dữ liệu động áp dụng vào truy vấn thông tin. Đại học Đà Nẵng
Nguyễn Thị Bích Phương (2012). Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin (Information Retrieval). Học viện công nghệ bưu chính viễn thông
Nguyễn Đình Bình (2012). Nghiên cứu khai phá dữ liệu web và ứng dụng tìm kiếm trích chọn thông tin theo chủ đề. Đại học Đà Nẵng...
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI