Luận án TS: Nhận dạng cảm xúc cho tiếng Việt nói
Luận án Nhận dạng cảm xúc cho tiếng Việt nói nghiên cứu tổng quan về cảm xúc, nhận dạng cảm xúc tiếng nói; nghiên cứu một số mô hình nhận dạng dung cho nhận dạng cảm xúc tiếng nói như mô hình GMM, ANN,... ; phân tích đánh giá và đề xuất bộ ngữ liệu cảm xúc tiếng Việt dung cho nhận dạng bốn cảm xúc cơ bản vui, buồn, tức và bình thường; nghiên cứu đề xuất và phân tích ảnh hưởng của các tham số đặc trưng tín hiệu tiếng nói đến cảm xúc tiếng Việt; thử nghiệm nhận dạng cảm xúc tiếng Việt dựa trên các mô hình đã nghiên cứu có tính đến các đặc trưng của tiếng Việt nói; phân tích đánh giá kết quả nhận dạng cảm xúc của các mô hình dựa trên các kết quả thử nghiệm.
Mục lục nội dung
1. Mở đầu
1.1 Mục tiêu nghiên cứu
Với tính thiết thực của cảm xúc trong tiếng nói được áp dung trong thực tế đang rất được quan tâm, muc tiêu chính của đề tài là nghiên cứu nhận dạng cảm xúc cho tiếng Việt nói dựa trên phương diện xử lý tín hiệu tiếng nói. Đề tài nghiên cứu thử nghiệm và đề xuất mô hình nhận dạng cảm xúc cho tiếng Việt nói dựa trên việc nghiên cứu đánh giá các tham số và so sánh một số mô hình nhận dạng. Bốn cảm xúc cơ bản sẽ được nghiên cứu bao gồm cảm xúc: vui, buồn, tức và bình thường. Ngữ liệu tiếng Việt dùng cho nhận dạng là giọng phổ thông miền Bắc có cả giọng nam và giọng nữ.
1.2 Đối tượng phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là nhận dạng cảm xúc cho tiếng Việt nói theo phương diện xử lý tín hiệu tiếng nói. Từ kết quả nhận dạng cảm xúc, xây dựng mô hình nhận dạng cảm xúc cho tiếng Việt nói. Các hình thái cảm xúc rất đa dạng và ở những vung miền khác nhau thì ngôn điệu đối với biểu hiện cảm xúc cũng khác nhau. Trong khuôn khổ có hạn, luận án tập trung thực hiện nghiên cứu nhận dạng 4 cảm xúc cơ bản: vui, buồn, tức và bình thường với giọng phổ thông miền Bắc gồm cả giọng nam và nữ.
Nghiên cứu của luận án nhằm nhận dạng cảm xúc chỉ qua diễn đạt câu nói mà tín hiệu tiếng nói đã thu thập được tương ứng và cũng không xét đến các từ cảm thán, hoặc biểu lộ cảm xúc qua khuôn mặt cũng như chưa thể xét đến suy nghĩ thực tế trong bộ não của con người liên quan đến cảm xúc. Chính vì vậy, chẳng hạn nếu người nói diễn đạt câu nói theo cảm xúc tức thì hệ thống nhận dạng là cảm xúc tức. Mặc dù người nói đang tức song diễn đạt câu nói lại theo cảm xúc bình thường thì hệ thống nhận dạng là cảm xúc bình thường.
1.3 Phương pháp nghiên cứu
Phương pháp nghiên cứu thực hiện trong luận án là nghiên cứu lý thuyết kết hợp với thực nghiệm.
Về mặt lý thuyết, luận án tìm hiểu tổng quan về cảm xúc trong tiếng nói, các phương pháp nhận dạng cảm xúc, các tham số đặc trưng của tín hiệu tiếng nói có ảnh hưởng đến cảm xúc xét theo phương diện tín hiệu tiếng nói đồng thời cũng trình bày một số mô hình nhận dạng cảm xúc tiếng nói được tổng hợp từ các tài liệu, bài báo khoa học.
Về mặt thực nghiệm, lựa chọn và đánh giá bộ ngữ liệu cảm xúc tiếng Việt, sử dung các bộ công cu để tính toán, phân tích, thống kê và đánh giá các tham số đặc trưng, tiến hành nghiên cứu và thực hiện các thử nghiệm nhận dạng cảm xúc dựa trên các mô hình nhận dạng cảm xúc cho ngữ liệu tiếng Việt với bốn cảm xúc vui, buồn, tức, bình thường từ đó đánh giá kết quả đạt được để xác nhận giá trị của các mô hình và các tham số sử dụng.
2. Nội dung
2.1 Tổng quan về cảm xúc và nhận dạng cảm xúc tiếng nói
Cảm xúc tiếng nói và phân loại cảm xúc
Nghiên cứu về nhận dạng cảm xúc
Sơ đồ chung cho hệ thống nhận dạng cảm xúc tiếng nói
Một số bộ phân lớp thường dung cho nhận dạng cảm xúc
- Bộ phân lớp phân tích phân biệt tuyến tính LDA
- Bộ phân lớp phân tích khác biệt toàn phương QDA
- Bộ phân lớp k láng giềng gần nhất k-NN
- Bộ phân lớp hỗ trợ véctơ SVC
- Bộ phân lớp máy hỗ trợ véctơ SVM
- Bộ phân lớp HMM
- Bộ phân lớp GMM
- Bộ phân lớp ANN
Một số kết quả nhận dạng cảm xúc được thực hiện trong và ngoài nước
2.2 Ngữ liệu cảm xúc và các tham số đặc trưng cho cảm xúc tiếng Việt nói
Phương pháp xây dựng ngữ liệu cảm xúc
Một số bộ ngữ liệu cảm xúc hiện có trên thế giới
Ngữ liệu cảm xúc tiếng Việt
Tham số đặc trưng của tín hiệu tiếng nói dùng cho nhận dạng cảm xúc
- Đặc trưng của nguồn âm và tuyến âm
- Đặc trưng ngôn điệu
Tham số đặc trưng dung cho nhận dạng cảm xúc tiếng Việt
- Các hệ số MFCC
- Năng lượng tiếng nói
- Cường độ tiếng nói
- Tần số cơ bản F0 và các biến thể của F0
- Các formant và dải thông tương ứng
- Các đặc trưng phổ
Phân tích ảnh hưởng của một số tham số đến khả năng phân biệt các cảm xúc của bộ ngữ liệu cảm xúc tiếng Việt
- Phân tích phương sai ANOVA và kiểm định T
- Ảnh hưởng của tham số đặc trưng đến phân biệt các cảm xúc
Đánh giá sự phân lớp của bộ ngữ liệu cảm xúc tiếng Việt
- Kết quả phân lớp với LDA
- Thử nghiệm nhận dạng cảm xúc tiếng Việt dựa trên bộ phân lớp IBk, SMO và Trees J48
2.3 Nhận dạng cảm xúc tiếng Việt nói với mô hình GMM
Mô hình GMM cho nhận dạng cảm xúc
Công cu, tham số và ngữ liệu sử dung
Các thử nghiệm nhận dạng
- Thử nghiệm 1 đến Thử nghiệm 6
- Thử nghiệm 7 đến Thử nghiệm 10
- Thử nghiệm 11
- Thử nghiệm 12
- Thử nghiệm 13
Đánh giá sự ảnh hưởng của tần số cơ bản
Quan hệ giữa số thành phần Gauss M và tỷ lệ nhận dạng
2.4 Nhận dạng cảm xúc tiếng Việt nói sử dụng mô hình DCNN
Mô hình mạng nơron lấy chập
- Lấy chập
- Kích hoạt phi tuyến
- Lấy gộp
- Kết nối đầy đủ
Mô hình DCNN cho nhận dạng cảm xúc tiếng Việt
Ngữ liệu, tham số và công cụ dụng cho thử nghiệm
Thử nghiệm nhận dạng cảm xúc tiếng Việt bằng mô hình DCNN
3. Kết luận
Cảm xúc của con người là đa dạng, phong phú và không phải lúc nào cũng mạch lạc rõ ràng. Vì vậy, từ những nghiên cứu chung về cảm xúc, luận án nghiên cứu thử nghiệm nhận dạng với 4 cảm xúc được các nhà nghiên cứu cho rằng cơ bản nhất, đó là cảm xúc vui, buồn, tức và bình thường. Các kỹ thuật để nhận dạng cảm xúc cũng có nhiều phương pháp như dựa trên phân tích ngữ nghĩa văn bản, phân tích tín hiệu tiếng nói, phân tích biểu cảm qua gương mặt, phân tích tín hiệu điện não hay kết hợp của nhiều phương diện. Về phương diện phân tích tín hiệu tiếng nói để nhận dạng cảm xúc tiếng Việt, hãy còn rất ít công trình được công bố và luận án đã thực hiện nghiên cứu nhận dạng cảm xúc theo phương diện này. Luận án đã thực hiện nghiên cứu về cảm xúc cũng như khái quát các nghiên cứu nhận dạng cảm xúc hiện nay trên thế giới và trong nước từ đó nghiên cứu đánh giá đề xuất bộ ngữ liệu, tham số đặc trưng, thử nghiệm với các mô hình nhận dạng và đưa ra mô hình chung cho nhận dạng cảm xúc tiếng Việt. Với những mục tiêu đã đề ra ban đầu, luận án đã hoàn thành được các mục tiêu đó.
4. Tài liệu tham khảo
Nguyễn Tôn Nhan, Phú Văn Hẳn (2013), “Từ điển Tiếng Viêt”, Nhà xuất bản từ điển Bách Khoa
Rao, K. Sreenivasa, Koolagudi, Shashidhar G. (2013), “Emotion Recognition using Speech Features”, Springer
Schubiger M. (1958), “English intonation: its form and function”, Tubingen, Tubingen, Germany: Niemeyer.
Connor J. and Arnold G. (1973), “Intonation of Colloquial English”, London: UK: Longman, Second edition
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận án Tiến sĩ trên ---