Luận văn ThS: Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

Luận văn Tối ưu bảng cụm từ để cải tiến dịch máy thống kê tìm hiểu dịch máy thống kê trên cơ sở cụm từ, phương pháp tối ưu bảng cụm từ và đánh giá thực nghiệm dịch tiếng Anh sang tiếng Việt.

Luận văn ThS: Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

1. Mở đầu

Ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy. Công việc đưa ra mô hình tự động cho việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt để lớp ngôn ngữ tự nhiên. Nhưng sự ra đời của chúng đã khẳng định được ích lợi to lớn về mặt chiến luợc và kinh tế, đồng thời các vấn đề liên quan đến dịch máy cũng là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến vấn đề xử lí ngôn ngữ tự nhiên, một trong những vấn đề có ý nghĩa nhất mà trí tuệ nhân tạo có khả năng giải quyết. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. Với sự phát triển mạnh mẽ của dịch máy tự động thì dịch máy thống kê (Statistical Machine Translation) đã chứng tỏ là một hướng tiếp cận đầy tiềm năng bởi ưu điểm vượt trội so với các phương pháp dịch máy dựa trên cú pháp truyền thống. Kết quả thực tế của hệ thống dịch máy thống kê tốt hơn, ngôn ngữ dịch càng ngày càng gần với ngôn ngữ của người, giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và cùng với nhiều ngôn ngữ hơn.

2. Nội dung

2.1 Dịch máy thống kê trên cơ sở cụm từ

Ngôn ngữ tự nhiên

Dịch máy

Dịch máy thống kê dựa vào cụm từ

  • Cơ sở của phương pháp dịch máy thống kê 
  • Gióng hàng từ, gióng hàng thống kê 
  • Dịch máy thống kê dựa trên cơ sở cụm từ
  • Mục đích của việc dịch máy thống kê trên cơ sở cụm từ
  • Đảo cụm từ trong dịch máy thống kê
  • Bảng cụm từ trong dịch máy thống kê

Mô hình ngôn ngữ

2.2 Phương pháp tối ưu bảng cụm từ

Quy trình sinh bảng cụm từ

Phương pháp tối ưu bảng cụm từ

  • Chỉ số cụm từ nguồn
  • Lưu trữ cụm từ mục tiêu
  • Nén ngữ liệu song ngữ
  • Nén bảng cụm từ
  • Mã hóa cụm từ
  • Giải mã cụm từ

2.3 Đánh giá thực nghiệm

Môi trường triển khai 

Xây dựng chương trình dịch và thực hiện nén bảng cụm từ

  • Chuẩn hóa dữ liệu
  • Xây dựng mô hình ngôn ngữ, mô hình dịch
  • Nén bảng cụm từ
  • Đánh giá kết quả dịch

Thực nghiệm và đánh giá kết quả dịch tiếng Anh sang tiếng Việt

  • Thực nghiệm dịch với câu đơn giản. 
  • Thực nghiệm dịch 1 đoạn văn bản từ tiếng Anh-Tiếng Việt 
  • Đánh giá kết quả dữ liệu huấn luyện bảng cụm từ
  • Đánh giá kết quả theo cỡ dữ liệu huấn luyện 
  • Đánh giá kết quả theo thời gian tải bảng cụm từ

3. Kết luận

Dịch máy thống kê hiện nay đang rất phát triển trên thế giới, đặc biệt là dịch máy thống kê dựa vào cụm từ. Hướng tiếp cận dịch máy thống kê trên cơ sở cụm từ đã khắc phục được nhiều nhược điểm của dịch máy dựa trên cơ sở từ. Qua ba chương, luận văn đã trình bày về cách tiếp cận dịch máy thông kê dựa trên cụm từ, các phương pháp nén bảng cụm từ và đồng thời áp dụng vào bài toán dịch Anh – Việt. Mặc dù chất lượng dịch chưa cao nhưng khi chúng ta cải tiến mô hình dịch đồng thời huấn luyện với nhiều dữ liệu hơn, chất lượng dịch sẽ được nâng cao rõ rệt. Hơn nữa ta hoàn toàn có thể áp dụng cho chiều dịch Việt – Anh. Các kết quả đạt được:

  • Trình bày về cách tiếp cận dịch máy bằng thống kê trên cơ sở cụm từ.
  • Trình bày về quá trình sinh bảng cụm từ trong dịch máy thống kê.
  • Áp dụng các phương pháp nén tối ưu bảng cụm từ.
  • Xây dựng chương trình thử nghiệm dịch Anh-Việt bằng thống kê dựa trên hệ thống dịch máy Moses.
  • Đánh giá kết quả trước và sau khi áp dụng các phương pháp nén bảng cụm từ.

4. Tài liệu tham khảo

Nguyễn Văn Vinh (2005). “Xây dựng chương trình dịch tự động AnhViệt bằng phương pháp dịch thống kê”. Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN.

W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA

P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase table based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).

Koehn, P, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst (2007), Moses: Open Source Toolkit for Statistical Machine Translation. ACL 2007, Demonstration Session, Prague, Czech Republic....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:28/08/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM