Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia

Luận văn Nhận biết chủ đề của tài liệu dựa trên Wikipedia khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lưu trữ trong Wikipedia; khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia; phát triển (trên cơ sở kế thừa) hoặc cải tiến một phương pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia; thực nghiệm, đánh giá và viết báo cáo

Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia

1. Mở đầu

1.1 Lí do chọn đề tài

Wikipedia chính thức bắt đầu vào ngày 15 tháng 01 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger cùng với vài người cộng tác nhiệt thành và chỉ có phiên bản tiếng Anh. Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6.000 người đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng. Tính đến ngày nay đã có 4.847.953 bài viết tiếng Anh, 763.384.059 chỉnh sửa, 24.524.565 người dùng đăng ký và 1.358 nhà quản trị (Cập nhật 30-3-2015). Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới. Do số lượng bài viết ngày càng tăng, người dùng khó có thể tìm kiếm tài liệu một cách nhanh chóng và phân loại tiêu đề theo mong muốn. Vì thế, một thách thức mới được đặt ra là làm thế nào để nhận biết chủ đề có trong một tài liệu văn bản một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động được chúng.

1.2 Mục tiêu nghiên cứu

Mục tiêu của việc nhận diện chủ đề của văn bản nhằm để tìm nhãn hoặc phân nhóm, có thể giúp mô tả tốt nhất về vấn đề cốt lõi của văn bản phục vụ cho việc phân loại và xếp nhóm. Tìm ra đƣợc những danh mục có trọng số phù hợp với bài báo một cách tự động và đạt độ chính xác cao.

1.3 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu mô tả cách thức làm việc Wikipedia, cách thức phân nhóm của Wikipedia.

Phương pháp thu thập số liệu: thống kê tổng số phân nhóm trong Wikipedia tiếng Anh và tiếng Việt tính đến ngày 03/03/2015.

Phương pháp thực nghiệm: tiến hành phân loại và xếp nhóm đối với số tài liệu để tìm ra những tài liệu thuộc phân loại của Wikipedia.

2. Nội dung

2.1 Nghiên cứu tổng quan

Tình hình nghiên cứu trên thế giới 

Tình hình nghiên cứu trong nước 

Tóm lược

2.2 Phương pháp nhận biết và rút trích chủ đề

Khái niệm về Wikipedia 

  • Những ưu điểm của mô hình Web Wiki
  • Wikipedia hoạt động như thế nào
  • Kiểu cách và định dạng
  • Thực thể trong Wikipedia
  • Thể loại
  • Kiến trúc Wikipedia

Phương pháp nghiên cứu đề nghị

  • Hướng nghiên cứu chính của luận văn
  • Việc chuẩn bị thu thập 
  • Nhận diện chủ đề của tài liệu

Một số cải thiện của phương pháp đề xuất

2.3 Thực nghiệm và đánh giá

Tiến hành thực nghiệm 

  • Môi trường thực nghiệm
  • Nguồn dữ liệu
  • Cấu trúc cơ sở dữ liệu

Thực hiện chương trình

  • Gỡ bỏ các từ vô nghĩa
  • Tính trọng số của các từ trong tài liệu 
  • Tính trọng số của tiêu đề của tài liệu
  • Tính trọng số cao nhất của tài liệu
  • Tính trọng số của danh mục
  • Chọn danh mục phù hợp cho bài báo với trọng số của chúng

Chương trình thực nghiệm

Trường hợp thành công và thất bại

Đánh giá

  • Dữ liệu đánh giá
  • Độ chính xác của chương trình

Độ phản hồi của chương trình 

Kết luận

3. Kết luận

Luận văn đã giải quyết được những nhiệm vụ mà luận văn đã đưa ra:

  • Khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lưu trữ trong Wikipedia
  • Khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia
  • Phát triển (trên cơ sở kế thừa) hoặc cải tiến một phương pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia.
  • Thực nghiệm, đánh giá và viết báo cáo.

Qua những kết quả thực nghiệm đạt được cho thấy đề tài nhận biết chủ đề của tài liệu dựa trên Wikipedia là khả thi và có thể áp dụng được. Giúp tìm ra các danh mục phù hợp cho các bài báo một các tự động và đạt độ chính xác cao. 

4. Tài liệu tham khảo

Nguyễn Chánh Thành (2010). Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, Luận án tiến sĩ kỹ thuật. Đại học Bách khoa TP.HCM.

Đinh Quang Định (2013). Nghiên cứu công nghệ Web 3.0 (Semantic Web) và khả năng triển khai áp dụng. Học viện công nghệ bưu chính viễn thông

Phạm Đình Hồng (2013). Nghiên cứu phương pháp phân nhóm dữ liệu động áp dụng vào truy vấn thông tin. Đại học Đà Nẵng

Nguyễn Thị Bích Phương (2012). Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin (Information Retrieval). Học viện công nghệ bưu chính viễn thông

Nguyễn Đình Bình (2012). Nghiên cứu khai phá dữ liệu web và ứng dụng tìm kiếm trích chọn thông tin theo chủ đề. Đại học Đà Nẵng...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:31/08/2020 Chia sẻ bởi:Phuong

CÓ THỂ BẠN QUAN TÂM