Luận án TS: Đánh giá mức độ giống nhau của văn bản tiếng Việt

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt nghiên cứu, phân tích các phương pháp biểu diễn văn bản nói chung và mô hình vector nói riêng; khảo sát các nguồn dữ liệu cần thiết, tổng hợp nguồn tài liệu số; nghiên cứu bài toán so sánh văn bản để phát hiện sao chép tại PAN, đề xuất giải pháp xử lý phát hiện sao chép văn bản hiệu quả; khảo sát, nghiên cứu lý thuyết về DWT và bộ lọc Haar trong xử lý tín hiệu số; nghiên cứu đề xuất các giải thuật xử lý thông qua bộ lọc Haar, giải pháp tổ chức lưu trữ DNA phù hợp; nghiên cứu xây dựng bộ dữ liệu tiếng Việt thử nghiệm để phục vụ đánh giá; triển khai thực nghiệm và đánh giá kết quả. 

Luận án TS: Đánh giá mức độ giống nhau của văn bản tiếng Việt

1. Mở đầu

1.1 Mục tiêu nghiên cứu

Đề xuất được phương pháp hiệu quả trong biểu diễn văn bản để phục vụ tốt nhất cho quá trình phát hiện sao chép văn bản. 

Đề xuất các giải thuật nhằm cải thiện tốc độ và độ chính xác để phát hiện sao chép khi xử lý dữ liệu lớn. 

Xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt và ứng dụng thử nghiệm tại Đại học Đà Nẵng.

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu: Các mô hình, phương pháp biểu diễn văn bản; Các phương pháp, thuật toán tính độ tương tự văn bản; Bài toán phát hiện nội dung sao chép trên văn bản; Các hệ thống phát hiện sao chép văn bản

Giới hạn phạm vi nghiên cứu: Tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector. Nghiên cứu một số mô hình, phương pháp biểu diễn văn bản, chuyển dữ liệu văn bản thô thành kho dữ liệu dựa trên mô hình vector; Nghiên cứu đề xuất thuật toán tính độ tương tự văn bản. Luận án chỉ tập trung vào các phương pháp đo độ tương tự văn bản mà không xét đến yếu tố ngữ nghĩa của văn bản. Luận án chỉ tính toán độ tương tự văn bản dựa trên các phương pháp liên quan đến chuỗi; Đề xuất giải pháp tính độ tương tự văn bản tiếng Việt và triển khai thử nghiệm tại Đại học Đà Nẵng.

1.3 Phương pháp nghiên cứu

Phương pháp tài liệu: Nghiên cứu các tài liệu có liên quan đến các nội dung nghiên cứu như: Khai phá văn bản, biểu diễn và lưu trữ văn bản, một số đặc trưng cơ bản của tiếng Việt, hệ thống phát hiện sao chép văn bản, độ tương tự văn bản, so sánh văn bản để phát hiện sao chép tại PAN, phép biến đổi DWT, bộ lọc Haar, tìm kiếm nhị phân, xử lý dữ liệu lớn. 

Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm các mô hình, phương pháp so khớp văn bản trong phát hiện sao chép. Xây dựng các chương trình so khớp văn bản. So sánh, đánh giá các phương pháp đề xuất với các phương pháp đã có qua kết quả thực nghiệm. Cuối cùng, phát triển hệ thống thực nghiệm tại Đại học Đà Nẵng và đánh giá kết quả. 

2. Nội dung

2.1 Tổng quát tình hình nghiên cứu

Một số khái niệm sử dụng trong luận án

Một số đặc điểm của ngôn ngữ tiếng Việt 

  • Khái quát 
  • Một số khó khăn và nhập nhằng trong xử lý văn bản tiếng Việt 

Mô hình biểu diễn văn bản 

  • Giới thiệu 
  • Mô hình biểu diễn văn bản 
  • Nhận xét và đánh giá 

Các phương pháp tính độ tương tự văn bản 

  • Hướng tiếp cận 
  • Bài toán so khớp chuỗi 

So sánh văn bản và ứng dụng trong phát hiện sao chép

  • Giới thiệu 
  • Các vấn đề liên quan về sao chép 
  • Phát hiện sao chép tại PAN

2.2 So sánh văn bản dựa trên mô hình vector

Giới thiệu

Tính độ tương tự văn bản trong mô hình vector 

  • Biểu diễn văn bản theo mô hình vector 
  • Phương pháp tính trọng số từ chỉ mục 
  • Phương pháp tính độ tương tự 
  • Nhận xét 

Một số phương pháp so sánh văn bản dựa trên mô hình vector

  • Mô hình vector hóa văn bản 
  • Phương pháp cải tiến sử dụng độ đo Cosine 

Đánh giá các phương pháp dựa trên mô hình vector

  • Tạo bộ dữ liệu để đánh giá các thuật toán
  • Đánh giá các thuật toán dựa trên mô hình vector
  • Nhận xét

2.3 Biến đổi Wavelet rời rạc

Đặt vấn đề

  • Phát biểu bài toán 
  • Đề xuất ý tưởng 

Cơ sở lý thuyết về DWT và bộ lọc Haar 

  • Cơ sở lý thuyết về DWT 
  • Bộ lọc Haar 
  • Chuỗi DNA 

Đề xuất mô hình hệ thống phát hiện sao chép

  • Giới thiệu 
  • Đề xuất mô hình hệ thống áp dụng cho phương pháp dựa trên DWT 

Đề xuất quy trình chuyển đổi dữ liệu 

Đề xuất phương pháp và giải thuật xử lý 

  • Tiền xử lý dữ liệu 
  • Quy trình số hóa 
  • Giải thuật cho bộ lọc Haar 
  • Tổ chức dữ liệu cho bộ DNA nguồn 

Đề xuất thuật toán phát hiện sự giống nhau 

  • Mã hóa dữ liệu và tính DNA của văn bản đánh giá 
  • So sánh và đưa ra quyết định 
  • Độ phức tạp của thuật toán phát hiện sự giống nhau 

Kết quả thử nghiệm phương pháp dựa trên DW

  • Dữ liệu thử nghiệm  
  • Kết quả thử nghiệm  

Đánh giá

2.4 Phát triển hệ thống

Mô tả hệ thống

  • Mục đích 
  • Các đối tượng sử dụng 
  • Mô hình tổng quát 

Xây dựng kho dữ liệu văn bản tiếng Việt 

  • Giới thiệu 
  • Kiến trúc hệ thống kho dữ liệu 
  • Giải pháp xây dựng kho dữ liệu 
  • Đánh giá về kho dữ liệu  

Triển khai hệ thống phát hiện sao chép văn bản

Đề xuất hướng phát triển để xử lý dữ liệu lớn 

  • Giới thiệu 
  • Đề xuất giải pháp xử lý 
  • Đề xuất phương pháp biểu diễn DNA bằng Tensor

3. Kết luận

Tóm lại, điểm nổi bật trong luận án là đề xuất nhiều phương pháp để giải quyết yêu cầu bài toán như: 1) Tìm cách để chuyển văn bản thành số nguyên đại diện đảm bảo đặc trưng của văn bản, giữ đúng vị trí ký tự sử dụng mã Unicode; 2) Chuyển số nguyên thành số thực nhỏ để dễ dàng lưu trữ và tính toán bằng cách đề xuất công thức tính toán sử dụng hàm logarit cơ số  10; 3) Lấy mẫu cho các phân đoạn để làm đầu vào cho bộ lọc Haar, đề xuất thuật toán để lấy mẫu, dịch cửa sổ trượt, tính toán số bước thực hiện tối ưu; 4) Đề xuất thuật toán sắp xếp các DNA theo thứ tự tăng dần để phục vụ tìm kiếm nhị phân gần đúng, xử lý dữ liệu lớn; 5) Tìm ra phương pháp tổ chức dữ liệu hiệu quả để dễ thực hiện việc so khớp và truy xuất kết quả; 6) Đề xuất thuật toán để so sánh và đánh giá mức độ giống nhau, chỉ ra các đoạn giống và tô màu theo các mức độ trùng. Như vậy, với mỗi đề xuất trên đều thể hiện được tính mới và có đóng góp vào ý tưởng, phương pháp chung để giải quyết bài toán phát hiện sao chép văn bản hiệu quả. 

4. Tài liệu tham khảo

Achananuparp, P., Hu, X., and  Shen, X., "The Evaluation of  Sentence Similarity Measures", in International Conference on data warehousing and knowledge discovery, Springer, 2008, pp. 305-316. 

Aggarwal, C. C., "Similarity and Distances", in Data Mining , Ed: Springer, Cham, 2015, pp. 63-91.

Alzahrani, S. and Salim, N., "Fuzzy semantic-based string similarity for extrinsic plagiarism detection", in CLEF 2010 LABs and Workshops, Notebook Papers , Braschler and Harman, 2010, pp. 1-8.

Androutsopoulos, I. and Malakasiotis, P., "A survey of paraphrasing and  textual entailment methods", Journal of Artificial Intelligence Research , pp. 135-187, 2010. 

Anh, N. H. T., Chi, N. T. K., and Phi, N. H., "Mô hình biểu diễn văn bản thành đồ thị", Tạp chí Phát tri ển Khoa học và Công nghệ, vol. 12, pp. 5-14, 2009....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận án Tiến sĩ trên ---

Ngày:20/08/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM