Luận văn ThS: Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh

Luận văn Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh nghiên cứu, tìm hiểu, phân tích về dịch máy thống kê trên cơ sở cụm từ; cài đặt thử nghiệm tối ưu hóa cụm từ bằng hệ dịch máy thống kế Moses.

Luận văn ThS: Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh

1. Mở đầu

1.1 Lí do chọn đề tài

Vào những năm gần đây, dịch máy nói chung, dịch máy thống kê nói riêng được phát triển mạnh và ứng dụng rộng rãi. Kết quả thực tế của hệ thống dịch này rất tốt. Ngôn ngữ của máy dịch ngày càng gần với ngôn ngữ của người. Ngoài ra cùng với hệ thống dịch máy thống kê, các sản phẩm ứng dụng ngày càng nhiều giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và cùng với nhiều ngôn ngữ hơn. Hiện nay, phương pháp dịch thống kê dựa trên cụm từ là phương pháp cho kết quả dịch tốt nhất hiện nay. Điều này được thể hiện của qua các hệ dịch máy của Google, Vietgle. Hơn nữa việc dịch giữa tiếng Việt sang tiếng Anh là rất cần thiết khi khối lượng văn bản tiếng Anh ngày càng lớn trong thời kỳ Việt Nam hội nhập sâu rộng với quốc tế.

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu:

  • Nghiên cứu về các phương pháp, mô hình dịch máy thống kê
  • Thử nghiệm và đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh

Phạm vi nghiên cứu: Đề tài tập trung vào nghiên cứu phương pháp dịch thống kê dựa vào cụm từ và ứng dụng dịch tài liệu, văn bản tiếng Việt, tiếng Anh.

1.3 Phương pháp nghiên cứu

Tìm hiểu các hệ dịch tự động đã có để tìm ra các phương pháp dịch máy mà các hệ dịch đang sử dụng.

Nghiên cứu và đánh giá các phương pháp dịch máy, những ưu điểm và hạn chế, sau đó tìm ra phương pháp có hiệu quả và đề xuất áp dụng cho bài toán đề tài đặt ra.

Nghiên cứu các phương pháp đánh giá chất lượng dịch máy để đánh giá hiệu quả dịch cho hệ thống đề tài đã xây dựng.

2. Nội dung

2.1 Tổng quan về dịch máy

Khái niệm về hệ dịch máy 

  • Định nghĩa
  • Vai trò của dịch máy
  • Sơ đồ tổng quan của một hệ dịch máy

Dịch máy thống kê là gì? 

  • Tổng quan về dịch thống kê
  • Mô hình kênh nguồn
  • Cách tiếp cận Maximum và mô hình gióng hàng
  • Nhiệm vụ trong dịch thống kê
  • Ưu điểm của phương pháp dịch thống kê

Phân loại dịch máy thống kê

  • Dịch máy thống kê dựa vào từ (word-based)
  • Dịch máy thống kê dựa trên cụm từ (phrase-based)
  • Dịch máy thông kê dựa trên cú pháp
  • Một số công cụ và các nhóm nghiên cứu trên Internet về SMT

2.2 Áp dụng cho ngôn ngữ Việt - Anh

Giới thiệu mô hình dịch máy dựa trên cụm từ

Kiến trúc của mô hình dịch dựa trên cụm từ 

  • Mô hình log-linenear
  • Mô hình dịch
  • Mô hình ngôn ngữ

Giải mã

  • Đặt vấn đề
  • Mô tả thuật toán

Đánh giá chất lượng dịch

Phần mềm mã nguồn mở Moses

Quá trình giải mã

Áp dụng với cặp ngôn ngữ Việt – Anh

  • Xây dựng ngữ liệu (corpus)
  • Phân đoạn từ trong corpus tiếng Việt (Segmentation)
  • Đánh giá theo dữ liệu huấn luyện
  • Đánh giá theo mô hình gióng hàng từ trong văn bản

2.3 Thử nghiệm và đánh giá

Công cụ tiền xử lý cho hệ dịch 

  • Môi trường triển khai
  • Chuẩn bị dữ liệu đầu vào cho hệ dịch
  • Huấn luyện mô hình dịch

Kết quả thực nghiệm

  • Dữ liệu đầu vào
  • Quá trình chuẩn bị dữ liệu và huấn luyện

3. Kết luận

Luận văn đã đưa ra phương pháp dịch máy thống kê dựa trên cụm từ là một trong những phương pháp dịch đang được áp dụng rộng rãi trên thế giới. ví dụ như Google, Vietgle, Systran...vvv . nó đã khắc phục được các nhược điểm của dịch máy dựa vào từ và dựa vào luật.Từ mô hình đó tôi đã nghiên cứu và ứng dụng vào dịch ngôn ngữ Việt _ Anh. Mặc dù chất lượng dịch chưa cao, nhưng khi chúng ta cải tiến mô hình dịch đồng thời đưa nhiều dữ liệu nguồn hơn nữa, chất lượng dịch sẽ được nâng lên. Các công việc đạt được của luận văn: 

  • Trình bày được tổng quan về hệ dịch máy đặc biệt là dịch máy thống kê dựa vào cụm từ
  • Giải thích được bộ công cụ mã nguồn mở Moses
  • Thử nghiệm mô hình dịch máy và cho kết quả tương đối khả quan

4. Tài liệu tham khảo

Nguyễn Văn Vinh (2005). “Xây dựng chương trình dịch tự động Anh-Việt bằng phương pháp dịch thống kê”. Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN

Đào Ngọc Tú (2012). “ Nghiên cứu về dịch máy thống kê dựa vào cụm từ và thừ nghiệm với cặp ngôn ngữ Anh _ Việt”. Luận văn Thạc sĩ Học viện công nghệ bưu chính viễn thông

W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.

F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, pp 29(1):19-51...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:28/08/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM