Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web

Luận văn Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web trình bày tổng quan về cơ sở dữ liệu chuỗi, khái quát về lĩnh vực khai thác mẫu và luật trên cơ sở dữ liệu chuỗi; trình bày bài toán về khai thác mẫu chuỗi; mô tả chi tiết thuật toán kết hợp của bit vectơ động cho khai thác chuỗi phổ biến đóng; trình bày tổng quan về khai thác Web, lý do vì sao chọn khai thác sử dụng Web. Sau đó, ứng dụng luật đã nghiên cứu vào khai thác hành vi sử dụng Web.

Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web

1. Mở đầu

1.1 Lí do chọn đề tài

Ngày nay, các ứng dụng về công nghệ thông tin đều phát tiển trên nền Web cùng với sự bùng nổ của công nghệ, truyền thông, v.v… Công nghệ Web sẽ toàn cầu hóa hầu hết trong các lĩnh vực đời sống: kinh doanh - thương mại, y tế, khoa học, giáo dục, v.v… Chính vì thế, việc sử dụng các trang Web, số lượng duyệt Web, số lần giao dịch và truy cập vào các ứng dụng Web ngày càng gia tăng dẫn đến tình trạng khó khăn cho các nhà cung cấp và phát triển dịch vụ Web: nghẽn mạng, tốn nhiều không gian, chiếm nhiều bộ nhớ server, chi phí cao; mất nhiều thời gian sử dụng Web của người dùng vì thông tin bị trùng lắp, dư thừa, v.v… làm mất đi thói quen sử dụng những trang Web mặc dù đã nhiều lần truy cập trước đây.

1.2 Mục tiêu nghiên cứu

Nghiên cứu cơ sở lý thuyết các kỹ thuật khai thác dữ liệu, kỹ thuật thu thập thông tin người dùng truy cập trên Web. Cụ thể là khai thác dữ liệu mẫu chuỗi (sequence database) và xây dựng công cụ hỗ trợ trong việc khai thác hành vi sử dụng Web của người dùng dựa trên thông tin của Web log đối với những trang Web thương mại điện tử.

1.3 Phạm vi nghiên cứu

Vì tầm quan trọng của một số ứng dụng khai thác mẫu chuỗi duyệt web, nhiều thuật toán đã được đề xuất trong lĩnh vực khai thác mẫu chuỗi trong thập kỷ qua; hầu hết các thuật toán đều tập trung cải tiến để hỗ trợ tìm kiếm các chuỗi cô đọng hơn như chuỗi đóng, chuỗi cực đại, chuỗi tăng cường, chuỗi phân cấp, chuỗi tuần tự, chuỗi tuần hoàn, chuỗi có thứ tự bộ phận, chuỗi chuỗi sinh học xấp xỉ.

2. Nội dung

2.1 Giới thiệu tổng quan

Giới thiệu về khai thác dữ liệu (data mining)

  • Tại sao phải khai thác dữ liệu
  • Khai thác dữ liệu là gì ?
  • Quy trình phát hiện tri thức và khai thác dữ liệu
  • Các kỹ thuật khai thác dữ liệu
  • Ứng dụng của khai thác dữ liệu

Tổng quan về cơ sở dữ liệu chuỗi

  • Các khái niệm về chuỗi dữ liệu
  • Đặc điểm dữ liệu chuỗi
  • Một số ví dụ về dữ liệu chuỗi
  • Các kỹ thuật khai thác dữ liệu chuỗi

Khai thác luật trên cơ sở dữ liệu chuỗi

Giới thiệu về khai thác Web (Web mining)

  • Nhu cầu
  • Khó khăn 
  • Thuận lợi

Các hình thức khai thác Web (Web mining)

2.2 Khai thác mẫu chuỗi và khai thác luật

Khai thác mẫu chuỗi

  • Giới thiệu
  • Định nghĩa bài toán
  • Cách tổ chức dữ liệu
  • Các dạng bài toán tiếp cận
  • Các thuật toán khai thác mẫu tuần tự
  • Khai thác mẫu tuần tự đóng
  • Nhận xét

Khai thác luật

  • Định nghĩa luật
  • Phát biểu bài toán khai thác luật
  • Ý nghĩa của luật
  • Khai thác luật từ tập mẫu chuỗi

2.3 Ứng dụng luật tuần tự

Giới thiệu

Các hướng tiếp cận

Ứng dụng của khai thác sử dụng Web

Khai thác sử dụng Web

Thu thập và tiền xử lý dữ liệu

  • Thu thập dữ liệu
  • Tiền xử lý dữ liệu
  • Thuật toán làm sạch dữ liệu (Data Cleaning)
  • Thuật toán xác định người dùng dựa vào IP

Khai thác và phân tích đánh giá mẫu

2.4 Thực nghiệm

Mục tiêu 

Thực nghiệm và đánh giá

Tổng kết thực nghiệm

3. Kết luận

Luận văn đã tìm hiểu cơ sở lý thuyết về khai thác mẫu chuỗi, khai thác luật và ứng luật trên cơ sở dữ liệu chuỗi. Bên cạnh đó trong luận văn cũng giới thiệu về khai thác Web (Web Mining) và đi sâu theo hướng khai thác sử dụng Web. Mục đích của luận văn là đưa ra phương pháp hiệu quả để khai thác và ứng dụng luật trên cơ sở dữ liệu Web log. Luận văn đã giải quyết những vấn đề sau:

  • Trình bày tổng quan về cơ sở dữ liệu chuỗi. Đồng thời trình bày khái quát về lĩnh vực khai thác mẫu chuỗi và luật trên cơ sở dữ liệu chuỗi; cung cấp một cái nhìn chung nhất về lĩnh vực khai thác dữ liệu trên cơ sở dữ liệu chuỗi.
  • Trình bày bài toán về khai thác mẫu chuỗi. Trong đó, luận văn mô tả chi tiết thuật toán sự kết hợp của bit vectơ cho khai thác chuỗi phổ biến đóng, là thuật toán được chọn cho khai thác mẫu chuỗi. Thứ hai trình bày cơ sở lý thuyết về khai thác luật.
  • Luận văn trình bày tổng quan về khai thác Web, lý do vì sao chọn khai thác sử dụng Web. Sau đó, ứng dụng luật đã nghiên cứu vào khai thác hành vi sử dụng Web.
  • Trình bày thực nghiệm và phân tích kết quả trên một Web log thực tế của một doanh nghiệp tại Việt Nam. 

4. Tài liệu tham khảo

Olatz Arbelaitz , Ibai Gurrutxaga, Aizea Lojo, Javier Muguerza, Jesús Maria Pérez, Iñigo Perona, (2013) . “Web usage and content mining to extract knowledge for modelling the users of the Bidasoa Turismo Web site and to adapt it”, Expert Systems with Applications, 40(18), 7478–7491 .

C.J. Carmona , S. Ramírez-Gallego , F. Torres , E. Bernal , M.J. del Jesus , S. García, (2012) . “Web usage mining to improve the design of an e-commerce Web site: OrOliveSur.com”, Expert Systems with Applications, 39(12), 11243–11249 .

Minh-Thai Tran , Bac Le , Bay Vo , (2012) . “Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently”, Engineering Applications of Artificial Intelligence, 39(12), 11243– 11249 ....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:04/09/2020 Chia sẻ bởi:An

CÓ THỂ BẠN QUAN TÂM