Đồ án: Tìm hiểu bài toán khai phá dữ liệu văn bản
Đồ án Tìm hiểu bài toán khai phá dữ liệu văn bản tìm hiểu khái niệm, quá trình và các bài toán trong khai phá dữ liệu; tìm hiểu về lấy tin tự động và ứng dụng khai phá dữ liệu trong lấy tin tự động (tìm hiểu ngôn ngữ XML và công nghệ RSS); khảo sát, phân tích và thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS và xây dựng chương trình.
Mục lục nội dung
1. Mở đầu
Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Vấn đề đặt ra là làm sao ta có thể nắm bắt, cập nhật, chia sẻ thông tin một cách tổng quát, nhanh chóng và dễ dàng trong một khối lượng thông tin khổng lồ như vậy. Do đó đòi hỏi phải khai phá nguồn dữ liệu đó để lấy được những thông tin có ích một cách tự động. Trên thế giới hiện nay, rất nhiều website cung cấp tập tin RSS để chia sẻ và cập nhật thông tin một cách dễ dàng và nhanh chóng. Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo,…và một số phần mềm như: RSSReader, FeedDemon. Còn hiện tại ở Việt Nam, có một số phần mềm hỗ trợ đọc tin như: Vietspider, iCA và website hỗ trợ đọc tin RSS trực tuyến thì chưa nhiều.
2. Nội dung
2.1 Khái quát về khai phá dữ liệu
Khái niệm khai phá dữ liệu
Quá trình khai phá dữ liệu
Các bài toán thông dụng trong khai phá dữ liệu
2.2 Khai phá dữ liệu trong lấy tin tự động
Lấy tin tự động
- Định nghĩa
- Quy trình lấy tin tự động
Khai phá dữ liệu trong lấy tin tự động
- Tìm hiểu XML
- Tìm hiểu RSS
2.3 Phân tích thiết kế chương trình
Tổng quan về chương trình
Khảo sát, phân tích và đánh giá yêu cầu
- Khảo sát một số chương trình hỗ trợ đọc tin tức RSS
- Tổng hợp yêu cầu người dùng
- Đánh giá và lựa chọn giải pháp
Phân tích chức năng hệ thống
- Biểu đồ Use Case
- Đặc tả các Use - case
- Biểu đồ tuần tự (Sequence Diagram)
Thiết kế cơ sở dữ liệu
- Đặc tả chi tiết bảng dữ liệu
- Mô hình quan hệ
2.4 Xây dựng chương trình
Quy trình tự động lấy đường dẫn tới tập tin RSS
Quy trình đọc tập tin RSS
Một số màn hình giao diện đạt được
3. Kết luận
Trong quá trình tìm hiểu một số công nghệ XML, em thấy rằng XML là một chuẩn khá thân thiện, dễ đọc hiểu, là nền tảng để phát triển nhiều ngôn ngữ khác có ứng dụng cao trong đó có RSS. Hiện nay rất nhiều website chia sẻ tin tức đều dùng chuẩn RSS, nên việc xây dựng một chương trình hỗ trợ đọc tin RSS là điều hết sức cần thiết. Với sự nỗ lực và cố gắng, đồ án đã đạt được những kết quả sau:
- Hiểu và biết cách sử dụng một tài liệu XML trong vấn đề chia sẻ dữ liệu
- Biết cách đọc và ghi một tài liệu XML.
- Hiểu và biết cách sử dụng biểu thức chính qui trong việc tìm kiếm chuỗi.
- Xây dựng được website hỗ trợ đọc tin RSS với những chức năng cơ bản.
- Hiểu và nắm được kiến thức cơ bản XML trong .NET.
- Biết cách lập trình với ngôn ngữ C#
4. Tài liệu tham khảo
Dương Quang Thiện. .NET toàn tập - Tập 5: Lập trình Web dùng ASP.NET và C# - Nhà xuất bản Tổng hợp TP.HCM
Nguyễn Ngọc Bình Phương – Thái Thanh Phong. Ebook: Các giải pháp lập trình C#. Nhà sách Đất Việt
http://www.w3schools.com/xml/
http://msdn.microsoft.com/.....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---
Tham khảo thêm
- pdf Đồ án: Xây dựng, triển khai và quản lý mô hình mạng
- pdf Đồ án: Mạng riêng ảo
- pdf Luận văn: Nghiên cứu mô hình MVC trong lập trình NET để xây dựng website đăng ký mua giáo trình qua mạng
- pdf Luận văn: Nghiên cứu xây dựng giải pháp quản trị tập trung các phòng máy tính
- pdf Đồ án: Tìm hiểu phương pháp phân đoạn ảnh y học
- pdf Đồ án: Tìm hiểu mạng neural và ứng dụng của nó
- pdf Đồ án: Tìm hiểu phương pháp trích chọn dấu hiệu của ảnh dựa vào đặc trưng hình dạng
- pdf Đồ án: Tìm hiểu phương pháp DSE - Discrete Skeleton Evolution cho bài toán tìm xương của ảnh
- pdf Đồ án: Tìm hiểu chuẩn IEEE 802.15.4 và các ứng dụng
- pdf Đồ án: Tìm hiểu phương pháp phát hiện biên cho ảnh đa cấp xám và ảnh màu
- pdf Đồ án: Nghiên cứu bảo mật Web Service
- pdf Đồ án: Tìm hiểu phương pháp BPR - Bending Potential Ratio cho bài toán tìm xương của ảnh
- pdf Đồ án: Tìm hiểu về Support Vector Machine cho bài toán phân lớp quan điểm
- pdf Đồ án: Khai phá dữ liệu với R