Đồ án: Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng

Đồ án Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng giới thiệu về khai phá tri thức và khai phá dữ liệu; tìm hiểu phương pháp khai phá tập phổ biến đóng trong không gian 2, 3 chiều và cài đặt thuật toán thử nghiệm.

Đồ án: Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng

1. Mở đầu

Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lưu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh. Số lượng dữ liệu khổng lồ được tập trung và lưu trữ trong cơ sở dữ liệu trên các thiết bị điện tử như: đĩa cứng, băng từ, đĩa quang,… Tốc độ tăng dữ liệu quá lớn . Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa. Dữ liệu sau khi phục vụ cho một mục đích nào đó được lưu lại trong kho dữ liệu và theo ngày tháng khối lượng dữ liệu được lưu trữ ngày càng lớn. Trong khối lượng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chưa biết. Từ khối lượng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích. Một hướng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining).

2. Nội dung

2.1 Khai phá tri thức và khai phá dữ liệu

Giới thiệu chung về khai phá tri thức và khai phá dữ liệu

Quá trình khai phá tri thức

Quá trình khai thác dữ liệu.

Các phương pháp khai phá dữ liệu

Các lĩnh vực ứng dụng thực tiễn của khai phá dữ liệu

Các hướng tiếp cận trong khai phá dữ liệu

Phân loại các hệ khai phá dữ liệu

Các thách thức - khó khăn trong khai phá tri thức và khai phá dữ liệu

2.2 Phương pháp khai phá tập phổ biến

Giới thiệu

Giới thiệu một số thuật toán khai phá tập phổ biến

  • Thuật toán Apriori
  • Thuật toán Freespan

Tóm tắt

2.3 Tìm hiểu phương pháp khai phá

Phương pháp khai phá tập phổ biến đóng trong không gian 2 chiều

  • Tổng quan
  • Sự chuẩn bị
  • Tiến bộ của phương pháp khai phá tập phổ biến đóng
  • Khung cải tiến cho khai phá tập phổ biến đóng. 
  • Thuật toán C - Miner
  • Thuật toán B - Miner
  • Khai phá tập phổ biến đóng song song
  • Độ phức tạp thời gian

Phương pháp khai phá tập phổ biến đóng trong không gian 3 chiều

  • Tổng quan
  • Sự chuẩn bị
  • Thuật toán khai phá lát đại diện(RSM)
  • Thuật toán CubeMiner
  • Khai phá FCC song song
  • Độ phức tạp thời gian

Tóm tắt

2.4 Cài đặt thuật toán thử nghiệm

Giới thiệu về chương trình

Giao diện chương trình

Các thành phần và chức năng trong chương trình

Kết quả thực nghiệm

3. Kết luận

Hiện nay, con người đang chìm ngập trong tri thức nhưng lại rất thiếu thốn thông tin, với lượng dữ liệu lớn và phức tạp như hiện nay thì nhu cầu khai phá tri thức trở nên rất thiết yếu với con người. Đồ án đã giới thiệu được tổng quát về khá phá tri thức và khai phá dữ liệu, các hướng tiếp cận chính trong khai phá tri thức, các lĩnh vực ứng dụng khai phá tri thức trong thực tế. Ngoài ra đồ án còn đề cập đến một số phương pháp khai phá dữ liệu dạng đóng được ứng dụng trong nhiều lĩnh vực thực tế hiện nay (phân tích thị trường, phân tính sinh học,…). Cụ thể là các thuật toán C - Miner và B - Miner trong khai phá bộ dữ liệu 2 chiều, và RSM và CubeMiner trong khai phá bộ dữ liệu 3 chiều.

4. Tài liệu tham khảo

Ji Liping (Bachelor of Management, Nanjing University, China): Mining Localized co-expressed gene patterns from microarray data, A dissertation submitted for the degree of philosophy at national university of Singapore school of computing june 2006.

Andrew Kusiak Intelligent Systems Laboratory 2139 Seamans Center The University of Iowa Iowa City, Iowa 52242 – 1527: Association Rules The Apriori Algorithm.

Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U. and Hsu, M: Frequent patternprojected sequential pattern mining.

Nguyễn Đức Cường – Khoa Công Nghệ Thông Tin – Đại học Bách Khoa Thành Phố Hồ Chí Minh: Tổng quan về khai phá dữ liệu.