Đồ án: Xây dựng mô hình ngôn ngữ cho tiếng Việt

Đồ án Xây dựng mô hình ngôn ngữ cho tiếng Việt trình bày khái quát lý thuyết về mô hình ngôn ngữ, các khó khăn còn tồn tại phương pháp khắc phục, trong đó trọng tâm nghiên cứu các phương pháp làm mịn; giới thiệu về hệ dịch máy thống kê và ứng dụng của mô hình ngôn ngữ đó; thực nghiệm và đánh giá kết quả.

Đồ án: Xây dựng mô hình ngôn ngữ cho tiếng Việt

1. Mở đầu

Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê,… Và chúng thường được mô hình hóa sử dụng các n - gram. Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựa chọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô cùng phong phú của chúng ta.

2. Nội dung

2.1 Tổng quan về mô hình ngôn ngữ

N - gram 

Xây dựng mô hình ngôn ngữ

  • Ước lượng cực đại hóa khả năng (MLE)
  • Các phương pháp làm mịn

Kỹ thuật làm giảm kích thước dữ liệu 

  • Loại bỏ (pruning)
  • Đồng hóa (Quantization)
  • Nén (Compression)

Đánh giá mô hình ngôn ngữ

  • Entropy – Độ đo thông tin
  • Perplexity – Độ hỗn loạn thông tin
  • MSE - Lỗi trung bình bình phương

2.2 Ứng dụng của mô hình ngôn ngữ

Dịch máy

Dịch máy thống kê

  • Giới thiệu.
  • Nguyên lý và các thành phần
  • Mô hình dịch
  • Bộ giải mã

Các phương pháp đánh giá bản dịch

  • Đánh giá trực tiếp bằng con người
  • Đánh giá tự động: phương pháp BLEU

2.3 Thực nghiệm

Cài đặt hệ thống

  • Cấu hình và hệ điều hành
  • Các công cụ sử dụng
  • Các bước huấn luyện dich và kiểm tra
  • Chuẩn hóa dữ liệu
  • Xây dựng mô hình ngôn ngữ
  • Xây dựng mô hình dịch
  • Hiệu chỉnh trọng số
  • Dịch máy
  • Đánh giá kết quả dịch

Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM

  • Ngram - count
  • Ngram

Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES

Kết quả thực nghiệm khi đánh giá N - gram trong ứng dụng SMT.

3. Kết luận

Trên đây chúng tôi đã khảo sát trên cả mặt lý thuyết và thực nghiệm đối với xây dựng mô hình ngôn ngữ cho tiếng Việt. Luận văn hướng tới mục tiêu xây dựng mô hình ngôn ngữ Ngram cho tiếng Việt, nên một số vấn đề vẫn chưa hoàn chỉnh. Tuy nhiên, luận văn cũng đạt được một số kết quả:

  • Về lý thuyết: Tìm hiểu, nghiên cứu mô hình ngôn ngữ, các khó khăn còn tồn tại phương pháp khắc phục, trong đó trọng tâm nghiên cứu các phương pháp làm mịn.
  • Về thực nghiệm: Sử dụng bộ công cụ mã nguồn mở SRILM để xây dựng mô hình ngôn ngữ cho tiếng Việt. Sử dụng công cụ Moses để xây dựng mô hình dịch máy thống kê.

4. Tài liệu tham khảo

Huy Nguyễn Thạc. Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp Bloom Filter. Hà Nội : s.n., 2010.

Lê Anh Cường, Cao Văn Việt, Nguyễn Việt Hà. Xây dựng mô hình ngôn ngữ tiếng Việt và ứng dụng, Trường ĐH Công Nghệ, ĐHQG Hà Nội.

Thắng Tô Hồng. NGRAM. Trường đại học Công Nghệ, 2007.

Thắng Tô Hồng. Building language model for vietnamese and its application, graduation thesis. 2008......

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---

Ngày:05/09/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM