Luận văn ThS: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa

Luận văn Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa giới thiệu tổng quan về chủ đề; tìm hiểu một số kỹ thuật trong xây dựng mô hình các chủ đề và tìm kiếm theo ngữ nghĩa; xây dựng mô hình và đánh giá kết quả thực nghiệm.

Luận văn ThS: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa

1. Mở đầu

1.1 Tính cấp thiết

Với sự phát triển nhanh của công nghệ thông tin dẫn đến lượng thông tin ngày càng dày đặt với lượng thông tin dày đặt như vậy để tìm kiếm thông tin một cách chính xác và nhanh chóng đang được nghiên cứu và phát triển khá phổ biến hiện nay. Tuy nhiên việc tìm kiếm nội dung theo ngữ nghĩa bằng ngôn ngữ tiếng Việt không được phát triển nhiều ở Việt Nam. Do việc xử lý ngôn ngữ tiếng Việt chưa được phổ biến và còn nhiều phức tạp tạo nên tạo sự khó khăn trong việc xây dựng công cụ tìm kiếm theo ngữ nghĩa. Hiện tại trong nước các chương trình tìm kiếm theo ngữ nghĩa chưa được nghiên cứu nhiều, trong quá trình nghiên cứu và phát triển luận văn tác giả chưa tìm được chương trình tìm kiếm theo ngữ nghĩa hỗ trợ tiếng Việt.

1.2 Mục tiêu của đề tài

Xây dựng mô hình các chủ đề thể hiện mối liên hệ giữa các từ và cụm từ,các tài liệu,và các chủ đề, v.v. Mối liên hệ giữa các thành phần trên được thể hiện bằng các trọng số của các thành phần đó.

Xây dựng công cụ tìm kiếm theo ngữ nghĩa dựa trên mô hình các chủ đề đã xây dựng.

1.3 Đối tượng phạm vi nghiên cứu

Các tài liệu nghiên cứu phục vụ cho việc xây dựng mô hình các chủ đề và tìm kiếm các tài liệu có thể là văn bản hoặc thu thập các tài liệu này từ các trang web tin tức v.v. Các tài liệu trên phải chuẩn tiếng Việt các trang web tài liệu hoặc tin tức phải không bao gồm những trang chỉ hình ảnh hoặc âm thanh vì chương trình chỉ hỗ trợ tìm kiếm các tài liệu văn bản tiếng Việt.

Các tài liệu văn bản trên các trang web cũng như các bài báo điện tử hiện nay bao gồm tất cả các thể loại (không bao gồm các bài báo chỉ hình ảnh, video hoặc âm thanh),hiện luận văn tiến hành thực nghiệm trên các bài báo của trang web www.docbao.vn. Do trang web bao gồm các bài báo chuẩn tiếng Việt nội dung phong phú và số lượng các bài báo lớn phục vụ tốt cho việc xây dựng mô hình các chủ đề và tìm kiếm.

2. Nội dung

2.1 Giới thiệu tổng quan

Giới thiệu về mô hình các chủ đề

Tổng quan

Quy trình xây dựng mô hình các chủ đề và tìm kiếm theo ngữ nghĩa

Kết luận

2.2 Một số kỹ thuật

Các kỹ thuật trong xây dựng mô hình các chủ đề và tìm kiếm theo ngữ nghĩa

  • WebCrawler thu thập dữ liệu
  • Quy trình thu thập dữ liệu
  • Frontier
  • Cách lấy trang
  • Bóc tách trang
  • Các chiến lược thu thập dữ liệu
  • WebCrawler áp dụng cho luận văn

Xử lý văn bản

  • Đặc điểm của từ trong Việt
  • Kỹ thuật tách từ trong tiếng Việt
  • Công cụ áp dụng cho việc tách từ trong tiếng Việt

Phân chia các chủ đề và tính trọng số các từ trong chủ đề

  • Thuâṭ toán Latent Dirichlet Allocation

Web ngữ nghĩa

  • Tìm hiểu web ngữ nghĩa
  • Kiến trúc Web ngữ nghĩa

Kết luận

2.3 Xây dựng mô hình

Quy trình xây dựng mô hình các chủ đề và công cụ tìm kiếm theo ngữ nghĩa

  • Thu thập dữ liệu
  • Bóc tách dữ liệu
  • Sử dụng mô hình Latent Dirichlet Allocation

Xây dựng mô hình các chủ đề

  • Phương pháp ghi tập tin phân tán theo chiều rộng
  • Phương pháp ghi tập tin phân tán theo chiều sâu

Xây dựng chương trình tìm kiếm theo ngữ nghĩa: 

  • Sesame Sever
  • Jena Framework và ngôn ngữ truy vấn dữ liệu SPARQL
  • Xử lý dữ liệu tìm kiếm

2.4 Đánh giá kết quả thực nghiệm

Kết quả thực nghiệm

  • Môi trường thực nghiệm
  • Công cụ
  • Dữ liệu
  • Kết quả đạt được

Đánh giá chương trình

  • Thời gian tìm kiếm của chương trình
  • Độ chính xác của chương trình
  • Độ phản hồi của chương trình
  • Độ tổng quát của chương trình
  • Kết luận
  • Các vấn đề rút ra được từ thí nghiệm trên

3. Kết luận

Luận văn tiến hành nghiên cứu xây dựng mô hình tìm kiếm theo ngữ nghĩa phục vụ cho lĩnh vực tìm kiếm hiện nay. Luận văn cũng đạt được những thành tựu như:

  • Xây dựng được mô hình các chủ đề phục vụ cho việc tìm kiếm theo ngữ nghĩa
  • Xây dựng chương trình hiện thực việc tìm kiếm.
  • Các quy trình như thu thập dữ liệu xây dựng mô hình đều được thực hiện một cách tự động hoá .
  • Mô hình các chủ đề hỗ trợ tìm kiếm theo ngữ nghĩa đưa ra các nội dung cần tìm và đề xuất các nội dung tương tự nội dung cần tìm cho người dùng.

Tuy nhiên để đạt được những hiệu quả tốt nhất cần phải khắc phục một số vấn đề quan trọng như: Tìm cách tăng tốc quá trình tìm kiếm trong trường hợp dữ liệu lớn, giảm thời gian xây dựng tập tin ontology trong trường hợp dữ liệu lớn.

4. Tài liệu tham khảo

Michal Rosen-Zvi, Thomas Griffiths, Mark Steyvers, Padhraic Smyth (2004). The Author-Topic Model for Authors and Documents. Dept. of Computer Science UC Irvine, Dept. of Psychology Stanford University, Dept. of Cognitive Sciences UC Irvine, Dept. of Computer Science UC Irvine

David Newman, Arthur Asuncion, Padhraic Smyth, Max Welling (2009) . Distributed Algorithms for Topic Models. Department of Computer Science University of California, Irvine Irvine, CA 92697, USA

Yuening Hu • Jordan Boyd-Graber , Brianna Satinoff (2011). Interactive Topic Modeling. Computer Science University of Maryland, iSchool and UMIACS University of Maryland

Gautam Pant, Padmini Srinivasan and Filippo Menczer (2004). Crawling the Web. The University of Iowa, Iowa City IA 52242, USA, The University of Iowa, Iowa City IA 52242, USA, 3 School of Informatics Indiana University, Bloomington, IN 47408, USA...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:31/08/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM