Luận văn ThS: Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu

Luận văn Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu nghiên cứu cơ sở lý thuyết các khái niệm về protein, cấu trúc protein trong sinh học, nhằm phục vụ cho việc khai thác các thuộc tính của chúng sử dụng trong tính toán;  nghiên cứu cơ sở lý thuyết về các kỹ thuật khai phá dữ liệu (nói chung) và kỹ thuật phân lớp dữ liệu (nói riêng), làm cơ sở cho xây dựng chương trình thực nghiệm và chứng minh tính đúng đắn của kết quả thực nghiệm.

Luận văn ThS: Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu

1. Mở đầu

1.1 Lí do chọn đề tài

Vào thời điểm bắt đầu nghiên cứu về tương tác protein – protein, các nhà khoa học thường sử dụng phương pháp hóa sinh để phân tích và dự đoán. Tuy nhiên các phương pháp thực nghiệm này đắt tiền, tốn nhiều thời gian, công sức, và nhiều khi rất khó để thực hiện. Vì vậy nên yêu cầu cấp thiết được đặt ra là dự đoán bằng cách áp dụng khai phá dữ liệu và phát triển các mô hình tính toán tự động để đạt hiệu quả cao, nhanh hơn như là sự bổ sung cho các phương pháp thực nghiệm. Theo thời gian, số lượng ngày càng tăng của tập các cặp protein – protein tương tác với nhau (và tập không tương tác) đã được thực nghiệm xác định. Sự tích lũy dữ liệu về tương tác protein – protein bằng thực nghiệm đem lại lợi thế về mặt đầy đủ thông tin để có thể tính toán dự đoán được thêm các tương tác protein – protein mới.

1.2 Mục tiêu đề tài

Trong khuôn khổ luận văn này, tôi trình bày một phương pháp tính toán cho dự đoán tương tác protein – protein khác với các phương pháp phân lớp truyền thống, đó là xây dựng mô hình phân lớp theo hướng áp dụng thuật toán phân lớp tổng hợp, hay là sự kết hợp mô hình các bộ phân lớp đơn lẻ yếu hơn thành một mô hình mạnh, nhằm đạt được hiệu quả phân lớp tối ưu. Với bài toán như trên, đặt ra mục tiêu cho đề tài là tìm hiểu và xây dựng thành công một mô hình dự đoán tương tác protein-protein dựa trên thuật toán phân lớp tổng hợp, là phương pháp đã được chứng minh là tốt hơn thuật toán phân lớp đơn lẻ truyền thống, từ đó làm tiền đề áp dụng vào thực tế triển khai nghiên cứu dự đoán tương tác protein – protein một cách hiệu quả nhất.

2. Nội dung

2.1 Cơ sở lí thuyết

Các khái niệm liên quan đến protein

  • Cấu trúc Protein
  • Chức năng của Protein
  • Định nghĩa quan hệ tương tác protein – protein (PPI) 
  • Tầm quan trọng của tương tác protein – protein

Khái niệm cơ bản về khai phá dữ liệu

  • Định nghĩa về khai phá dữ liệu 
  • Định nghĩa về học có giám sát
  • Khái niệm về thuật toán phân lớp trong học có giám sát 
  • Bài toán phân lớp
  • Tổng quan về một số thuật toán phân lớp cơ bản
  • Kết hợp các bộ phân lớp 
  • Một số phương pháp kết hợp các bộ phân lớp cơ bản 
  • Đánh giá mô hình phân lớp

2.2 Dự đoán tương tác protein - protein

Mô hình dự đoán tương tác protein – protein

Xây dựng mô hình thực nghiệm

  • Xây dựng bộ dữ liệu
  • Trích xuất thuộc tính/ đặc trưng 
  • Lựa chọn thuộc tính/ đặc trưng 
  • Phân lớp đặc trưng

2.3 Kết quả thực nghiệm và kết luận

Chương trình cài đặt

  • Yêu cầu cấu hình
  • Cài đặt

Kết quả dự đoán tương tác protein – protein

Nhận xét

3. Kết luận

Luận văn đã đạt được hai kết quả quan trọng trong quá trình xây dựng chương trình dự đoán tương tác protein - protein sử dụng kỹ thuật khai phá dữ liệu. 

  • Về nghiên cứu tìm hiểu: Nghiên cứu các khái niệm sinh học liên quan protein, cấu trúc protein. Nghiên cứu các khái niệm khai phá dữ liệu nền tảng liên quan đến kỹ thuật phân lớp dữ liệu. Tìm hiểu tổng quan về một số thuật toán phân lớp cơ bản. Tìm hiểu về phương pháp phân lớp tổng hợp (ensemble) và một số phương pháp kết hợp các bộ phân lớp cơ bản. Tìm hiểu các khái niệm về đánh giá mô hình phân lớp 
  • Về thực nghiệm: Xây dựng được chương trình dự đoán tương tác protein  - protein bằng phương pháp phân lớp tổng hợp. Xây dựng được hàm đánh giá và so sánh kết quả thực nghiệm giữa phương pháp phân lớp tổng hợp và phân lớp đơn lẻ. Tiến hành thử nghiệm trên nhiều tập dữ liệu ngẫu nhiên khác nhau để đảm bảo tính chính xác khách quan 
  • Xây dựng giao diện trực quan, dễ dàng sử dụng cho người dùng

Luận văn đã giới thiệu phương pháp áp dụng mô hình phân lớp tổng hợp vào nghiên cứu dự đoán tương tác protein - protein. Cũng như chứng minh được về mặt lý thuyết và thực nghiệm rằng phương pháp áp dụng mô hình phân lớp tổng hợp này ưu việt hơn giải thuật mô hình phân lớp đơn lẻ, có độ chính xác cao hơn và độ ổn định tốt hơn. 

4. Tài liệu tham khảo

R. E. H. Geoffrey M. Cooper (2004). The Cell: A Molecular Approach, 832 pages.

P. J. Chaput (2012).[online] Available at: http://www.futura-sciences.com/sante/ actualites/medecine-alzheimer-parkinson-nouvelle-piste-300-maladies- 35922/  [Accessed 12 September 2017]

D. Whitford (2005). Proteins : Structure and Function, 542 pages.

R. Bailey (2017). [online] Available at: https://www.thoughtco.com/protein- function-373550 [Accessed 12 September 2017]

G. Filiano (2016). [online]. Available at: http://sb.cc.stonybrook.edu/news/ general/2016-07-12-new-method-to-model-protein-interactions-may-help-accelerate-drug-development. php [Accessed 12 September 2017]....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:19/08/2020 Chia sẻ bởi:Chương

CÓ THỂ BẠN QUAN TÂM