Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt

Đồ án Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt giới thiệu tổng quan về bài toán thêm dấu cho văn bản tiếng Việt; giới thiệu mô hình dịch máy thống kê cho bài toán thêm dấu cho văn bản tiếng Việt và thực nghiệm.

Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt

1. Mở đầu

Chữ viết tiếng Việt của chúng ta có có sự xuất hiện của các dấu thanh dấu của các ký tự. Điều này giúp cho tiếng Việt “thêm thanh, thêm điệu”. Tuy nhiên, chính việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian hơn. Trong cuộc sống hêịn đại ngày nay, việc sử dụng các ứng dụng công nghệ thông tin để trai đổi và truyền thông tin càng trở nên phổ biến. Hàng ngày chúng ta đọc và nhận được rất nhiều e-mail, blog, những tin nhắn messenger... nhưng một số trong đó lại được truyền bởi chữ Việt không dấu. Chúng ta thật là vất vả khi phải vừa đọc vừa đoán nội dung. Chính vì vậy phát triển một công cụ giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.

2. Nội dung

2.1 Tổng quan về bài toán

Phát biểu bài toán

Đặc điểm

Giới thiệu công trình đã có

  • AMPad
  • VietPad
  • viAccent
  • VietMarker
  • Hướng tiếp cận trong đề tài

2.2 Giới thiệu mô hình dịch máy thống kê

Giới thiệu

Nguyên lí và các thành phần

  • Mô hình ngôn ngữ

Mô hình dịch

  • Sự gióng hàng

Giải mã (Decode)

  • Translation Options 
  • Thuật toán cơ bản (Core Algorithm) 
  • Kết hợp lại các giả thuyết (Recombining Hypotheses) 
  • (Beam Search) 
  • (N-Best Lists Generation)

2.3 Thực nghiệm

Cấu hình và hệ điều hành

Các công cụ sử dụng. 

  • Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM
  • Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES
  • Các bước huấn luyện dich và kiểm tra
  • Chuẩn hóa dữ liệu
  • Xây dựng mô hình ngôn ngữ
  • Huấn luyện mô hình
  • Kết quả dịch
  • Đánh giá kết quả dịch

3. Kết luận

Về lý thuyết:

  • Tìm hiểu về bài toán thêm dấu cho văn bản tiếng Việt chưa có dấu
  • Tìm hiểu, nghiên cứu mô hình dịch máy thống kê với tiếp cận cho bài toán thêm dấu cho văn bản tiếng Việt

Về thực nghiệm:

  • Sử dụng bộ công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mô hình dịch máy thống kê. Cài đặt và ứng dụng được mô hình dịch máy thống kê cho bài toán bỏ dấu tiếng Việt
  • Đánh giá kết quả

4. Tài liệu tham khảo

Thắng, Tô Hồng. NGRAM. s.l. : Khóa luận tốt nghiệp Trường đại học Công Nghệ, 2007.

Thắng, Tô Hồng. Building language model for vietnamese and its application, graduation thesis. 2008.

Brown, P. F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J. D., Mercer R. L., and Roossin P. S. A statistical approach to machine translation. s.l. : Computational Linguistics, 1990.

http://www.statmt.org/moses/

MOSES Statistical Machine Translation System User Manual and Code Guide. Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---

Ngày:09/09/2020 Chia sẻ bởi:Chương

CÓ THỂ BẠN QUAN TÂM