Luận văn ThS: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia

Luận văn Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia phân tích, đánh giá các công trình nghiên cứu về rút trích thông tin Wikipedia của các tác giả trong và ngoài nước; trình bày các cơ sở lý thuyết, lý luận; trình bày quá trình thực nghiệm tính các độ đo WordNet, tính hệ số tương quan Pearson (ký hiệu là r); thực nghiệm và đánh giá kết quả.

Luận văn ThS: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia

1. Mở đầu

1.1 Tính cấp thiết

Wikipedia ngày một lớn dần, miễn phí, cập nhật thường xuyên và là tiêu điểm của nhiều nghiên cứu gần đây. Các công trình nghiên cứu chủ yếu tập trung phân tích bài viết trong hệ thống Wikipedia. Nội dung các bài viết trong Wikipedia chứa nhiều thông tin để khai thác. Tuy nhiên dung lượng thông tin bài viết khá lớn, ngược lại hệ thống phân loại Wikipedia với dung lượng lưu trữ nhỏ hơn nhiều nhưng đầy tính ngữ nghĩa. Do vậy việc khai thác dữ liệu ở mảng này sẽ có nhiều ưu điểm về thời gian và hiệu quả hơn so với sử dụng toàn bộ bài viết của hệ thống Wikipedia. Thêm vào đó, với sự phát triển mạnh mẽ và không ngừng của công nghệ thông tin, dữ liệu trên internet trở thành nguồn thông tin đồ sộ của nhân loại. Nhu cầu tìm kiếm, truy xuất thông tin từ đó cũng gia tăng, mà chủ yếu là người dùng tìm kiếm nội dung của các trang trên internet.

1.2 Mục đích nghiên cứu

Mục tiêu của luận văn là khai thác kho dữ liệu đồ sộ của Wikipedia với chủ đích xử lý nhanh, ít tốn kém. Luận văn kế thừa và cải tiến phương pháp sử dụng hệ thống tên loại Wikipedia (Wikipedia Category Network - WCN) để tính độ tương quan giữa hai từ. Độ đo này có thể được sử dụng cho nhiều lĩnh vực: học máy có giám sát, tóm tắt văn bản, rút trích thông tin, truy xuất thông tin, mở rộng truy vấn.

1.3 Đối tượng phạm vi nghiên cứu

Từ mục đích nghiên cứu, luận văn xác định khai thác hệ thống tên thể loại của Wikipedia (Wikipedia Category Network - WCN) để rút trích tri thức ngữ nghĩa và tính độ tương đồng từ vựng và áp dụng trong mô phỏng mở rộng truy vấn tìm kiếm.

Luận văn tập trung nghiên cứu dữ liệu bách khoa toàn thư mở Wikipedia. Trong phạm vi hệ thống phân cấp thể loại với các tiêu đề bài viết thuộc các loại đó. Luận văn tìm hiểu và sử dụng dữ liệu Wikipedia cập nhật tháng 11 năm 2014. Ngoài hệ thống phân cấp thể loại của Wikipedia, luận văn còn nghiên cứu về Wordnet, máy học hỗ trợ vectơ (Support Vector Machine - SVM), gán nhãn từ loại (Part of Speech – POS tagging) và các đối tượng liên quan khác.

2. Nội dung

2.1 Tổng quan

Trong nước 

Nước ngoài

2.2 Rút trích đặc trưng ngữ nghĩa từ tên loại Wikipedia

Cơ sở lý luận
Phân tích hệ thống cấp bậc 

  • Category đơn
  • Cặp category

Phân tích cú pháp

Cơ sở lý thuyết kiến thức liên quan

  • Thư viện libsvm
  • Thư viện ws4j
  • Độ tương quan (correlation)

2.3 Thực nghiệm

Môi trường thực nghiệm

Dữ liệu

Thực nghiệm

Mô hình mở rộng truy vấn

Xử lý dữ liệu lớn của Wikipedia

2.4 Đánh giá

Đánh giá kết quả thực nghiệm

Đánh giá chung

3. Kết luận

Luận văn này đã kế thừa và cải tiến phương pháp để trích xuất thông tin hữu ích từ Wikipedia, sử dụng tính năng ngữ nghĩa được lấy từ hệ thống tên thể loại của Wikipedia. Phương pháp này cho kết quả khả quan. Các đặc trưng ngữ nghĩa lấy được từ phương pháp này có mối tương quan tốt với đánh giá của con người. Từ việc khảo sát, phân tích cấu trúc thể loại và tài liệu lưu trữ trong Wikipedia, luận văn đã thực hiện phương pháp khai thác rút trích các đặc trưng ngữ nghĩa từ tên thể loại. Phát triển trên cơ sở kế thừa một phương pháp rút trích ngữ nghĩa từ tên thể loại, dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia. Kết quả thực nghiệm, đánh giá cho thấy phương pháp đề xuất là khả quan, có ý nghĩa thực tiễn.

4. Tài liệu tham khảo

Nguyễn Chánh Thành. (2010). Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản. Luận văn Tiến sĩ Kỹ thuật. Chuyên ngành Khoa học máy tính, Đại học Bách khoa tp HCM.

Nguyễn Quang Châu, Phan Thị Tươi. (2008). Nhận diện cụm từ đặc trưng ngữ nghĩa trong tiếng Việt. Tạp chí Bưu chính Viễn thông và Công nghệ thông tin, số19, 2/2008.

Trần Mai Vũ. (2009). Tóm tắt đa văn bản dựa vào trích xuất câu. Luận văn Thạc sĩ. Đại học Công nghệ, Đại học quốc gia Hà Nội.

D. Milne and I. H. Witten. (2008). An effective, low-cost measure of semantic relatedness obtained from wikipedia links. In In Proceedings of AAAI 2008....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:31/08/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM