Luận văn: Khai phá dữ liệu Web và máy tìm kiếm

Luận văn Khai phá dữ liệu Web và máy tìm kiếm nghiên cứu tổng quan về xử lý song song

Luận văn: Khai phá dữ liệu Web và máy tìm kiếm

1. Mở đầu

Ngày nay, sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Trong những năm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế, thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet. So sánh với những dịch vụ khác như đăng tin hay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web "đòi" rẻ hơn rất nhiều và cập nhật nhanh chóng hơn tới hàng triệu người dùng khắp mọi nơi trên thế giới. Có thể nói Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa
 dạng. Nó như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh

2. Nội dung

2.1 Tổng quan về khai phá dữ liệu Web và máy tìm kiếm

Khai phá dữ liệu Web

Tổng quan về máy tìm kiếm

2.2 Tổng quan về xử lý song song

Máy tính song song

Mô hình lập trình song song

Hiệu năng của xử lý song song

Môi trường lập trình song song

PVM (Parallel Virtual Machine)

Giao thức truyền thông điệp MPI.

2.3 Giới thiệu về module Crawler trong các máy tìm kiếm

Tổng quan

Cấu trúc cơ bản của một crawler

Các crawler đa luồng (Multi-threaded crawlers)

Các thuật toán crawling

Các tiêu chuẩn đánh giá các crawler

​2.4 Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa

Giới thiệu chung về máy tìm kiếm ASPseek

Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek

Tìm hiểu về việc thực thi quá trình crawler trong module index của máy tìm kiếm VietSeek

3. Kết luận

Một ứng dụng MPI có thể được thực thi như là một tập các nhiệm vụ truyền thông đồng thời. Một chương trình bao gồm các đoạn mã của người lập trình được liên kết với các hàm thư viện được cung cấp bởi phần mềm MPI. Mỗi nhiệm vụ được chỉ định một thứ hạng (rank) duy nhất trong khoảng 1-> n-1 với các ứng dụng có n nhiệm vụ. Các hạng này được sử dụng để xác định các nhiệm vụ MPI khác nhau trong việc gửi và nhận tin cũng như thực hiện các thao tác truyền thông nói chung. Nhiệm vụ MPI có thể chạy trên cùng bộ xử lý hoặc các bộ xử lý khác nhau một cách đồng thời. Lợi ích của các rank là làm cho thao tác phối hợp độc lập với vị trí vật lý của các thành phần.

4. Tài liệu tham khảo

Đỗ thị Diệu Ngọc (2003). Một số vấn đề về phân lớp cho .... Luận văn đại học khoa Công Nghệ Đại học Quốc Gia Hà Nội 2003

G.A.Geist, J.A.Kolh, P.M.Papadopoulos, PVM and MPI: a comparison of features. Applied Mathematical Sciences subprogram of the Office of Energy Reaseach, US Department of Energy. May 30 1996

Gautam Pant, Padmini Srinivasan, Fillipo Menczer. Crawling the Web. The University of Iowa, Iowa City IA 52242, USA

-- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Công nghệ thông tin trên--

Ngày:19/08/2020 Chia sẻ bởi:Xuân Quỳnh

CÓ THỂ BẠN QUAN TÂM