Luận văn ThS: Xây dựng hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt

Luận văn Xây dựng hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt tìm hiểu các nghiên cứu liên quan; cơ sở lí thuyết; đề xuất mô hình phát hiện xu hướng và thựuc nghiệm.

Luận văn ThS: Xây dựng hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt

1. Mở đầu

1.1 Lí do chọn đề tài

Trong những năm gần đây mạng xã hội ngày càng phát triển mạnh mẽ ở Việt Nam cũng như trên thế giới. Theo một số liệu thống kê tháng 10 năm 2012 có gần 30 triệu người ở Việt Nam tham gia mạng xã hội, đến tháng 1 năm 2014 lên đến gần 40 triệu người ở Việt Nam tham gia mạng xã hội. Đây không những là nơi để con người trò chuyện, giải trí, kết nối bạn bè mà còn là một kênh cung cấp và chia sẽ thông tin giữa người sử dụng hoặc các doanh nghiệp, công ty muốn quảng cáo sản phẩm của mình. Sự phát triển nhanh chóng của mạng xã hội cũng kéo theo sự bùng nổ dữ liệu: khối lượng dữ liệu trực tuyến, thông tin chia sẽ trên mạng xã hội ngày càng trở nên khổng lồ. Đây là một nguồn thông tin rất hữu ích, được cập nhật liên tục. Với thực tế trên, vấn đề đặc ra là làm thế nào để có thể khai thác được những thông tin hữu ích này từ mạng xã hội. Các nguồn thông tin này phải được xử lý như thế nào để người dùng có thể phát hiện được những chủ đề được thảo luận phổ biến trên mạng xã hội.

1.2 Mục tiêu nghiên cứu

Đưa ra những cơ sở lý thuyết và hướng tiếp cận mới từ đó hình thành nên phương pháp xây dựng một hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội.

2. Nội dung

2.1 Các nghiên cứu liên quan

Giới thiệu

Các phương pháp phát hiện xu hướng

  • Phương pháp bán tự động (semi-automatic)
  • Phương pháp tự động (automatic)
  • Phương pháp phân tích cụm dựa trên ngữ cảnh

2.2 Cơ sở lí thuyết

Tiền xử lý văn bản

Vector trọng số tf-idf

Thuật toán k-means

Thuật toán HAC

Phương pháp tính khoảng cách khi gom cụm 

  • Giới thiệu về link - strength và correlation
  • Kết hợp link - strength và correlation để tính khoảng cách

2.3 Mô hình phát hiện xu hướng đề xuất

Kiến trúc của hệ thống

Dữ liệu đầu vào

Phân đoạn dữ liệu theo thời gian

Tiền xử lý văn bản và Tìm từ khóa quan trọng

Phát hiện xu hướng

2.4 Thực nghiệm 

Kết quả thí nghiệm 

  • Cách xây dựng tập dữ liệu thí nghiệm
  • Kết quả thí nghiệm

Đánh giá

3. Kết luận

Trong hướng tiếp cận nghiên cứu này chúng tôi đưa ra một phương pháp mới, sử dụng phương pháp gom cụm (clustering) trong khai phá dữ liệu (data mining) kết hợp với thông tin thời gian (temporal information) để phát hiện những xu hướng nổi lên trên mạng xã hội. Những mục tiêu chính đạt được trong nghiên cứu này được tóm tắt như sau:

  • Xây dựng thành phần tương tác với cơ sở dữ liệu của mạng xã hội, thành phần này chia khối lượng dữ liệu rất lớn của mạng xã hội thành nhiều phân đoạn theo thời gian.
  • Xây dựng thành phần phát hiện những từ khóa quan trọng dùng kỹ thuật vector trọng số tf
  • Xây dựng thành phần gom cụm các từ khóa quan trọng để hình thành nên các cụm chủ đề nổi lên. Kết hợp hai phương pháp gom cụm k-means và HAC để gom nhóm các từ khóa quan trọng tìm được ở bước áp dụng vector trọng số tf.
  • Xây dựng thành phần xuất kết quả các xu hướng được phát hiện bởi hệ thống

4. Tài liệu tham khảo

A. Porter and . Detampel (1995), “Technology opportunities analysis” , Technological Forecasting and Social Change, vol. 49, pp. 237-255

A. Popescul, G. Flake, S. L. S., L. Ungar, and C. Giles (2000), “Clustering and identifying temporal trends in document databases”, IEEE Advances in Digital Libraries, pp. 173-182

Ceren Budak, Divyakant Agrawal and Amr El Abbadi (2011), “Structural Trend Analysis for Online Social Networks”, Proceedings of the VLDB Endowment,Vol. 4, (No. 10), Pages 646-656

Cuneyt Gurcan Akcora, Murat Ali Bayir and Murat Demirbas. Trend sensing via Twitter. International Journal of Ad Hoc and Ubiquitous Computing, List of Issues, Volume 14, Issue 1, 2013, pages 16 - 26.....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:03/09/2020 Chia sẻ bởi:

CÓ THỂ BẠN QUAN TÂM