Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt

Đồ án Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt giới thiệu tổng quan về bài toán thêm dấu cho văn bản tiếng Việt; giới thiệu mô hình dịch máy thống kê cho bài toán thêm dấu cho văn bản tiếng Việt và thực nghiệm.

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Tổng quan về bài toán

2.2 Giới thiệu mô hình dịch máy thống kê

2.3 Thực nghiệm

3. Kết luận

4. Tài liệu tham khảo

1. Mở đầu

Chữ viết tiếng Việt của chúng ta có có sự xuất hiện của các dấu thanh dấu của các ký tự. Điều này giúp cho tiếng Việt “thêm thanh, thêm điệu”. Tuy nhiên, chính việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian hơn. Trong cuộc sống hêịn đại ngày nay, việc sử dụng các ứng dụng công nghệ thông tin để trai đổi và truyền thông tin càng trở nên phổ biến. Hàng ngày chúng ta đọc và nhận được rất nhiều e-mail, blog, những tin nhắn messenger... nhưng một số trong đó lại được truyền bởi chữ Việt không dấu. Chúng ta thật là vất vả khi phải vừa đọc vừa đoán nội dung. Chính vì vậy phát triển một công cụ giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.

2. Nội dung

2.1 Tổng quan về bài toán

Phát biểu bài toán

Đặc điểm

Giới thiệu công trình đã có

AMPad
VietPad
viAccent
VietMarker
Hướng tiếp cận trong đề tài

2.2 Giới thiệu mô hình dịch máy thống kê

Giới thiệu

Nguyên lí và các thành phần

Mô hình ngôn ngữ

Mô hình dịch

Sự gióng hàng

Giải mã (Decode)

Translation Options
Thuật toán cơ bản (Core Algorithm)
Kết hợp lại các giả thuyết (Recombining Hypotheses)
(Beam Search)
(N-Best Lists Generation)

2.3 Thực nghiệm

Cấu hình và hệ điều hành

Các công cụ sử dụng.

Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM
Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES
Các bước huấn luyện dich và kiểm tra
Chuẩn hóa dữ liệu
Xây dựng mô hình ngôn ngữ
Huấn luyện mô hình
Kết quả dịch
Đánh giá kết quả dịch

3. Kết luận

Về lý thuyết:

Tìm hiểu về bài toán thêm dấu cho văn bản tiếng Việt chưa có dấu
Tìm hiểu, nghiên cứu mô hình dịch máy thống kê với tiếp cận cho bài toán thêm dấu cho văn bản tiếng Việt

Về thực nghiệm:

Sử dụng bộ công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mô hình dịch máy thống kê. Cài đặt và ứng dụng được mô hình dịch máy thống kê cho bài toán bỏ dấu tiếng Việt
Đánh giá kết quả

4. Tài liệu tham khảo

Thắng, Tô Hồng. NGRAM. s.l. : Khóa luận tốt nghiệp Trường đại học Công Nghệ, 2007.

Thắng, Tô Hồng. Building language model for vietnamese and its application, graduation thesis. 2008.

Brown, P. F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J. D., Mercer R. L., and Roossin P. S. A statistical approach to machine translation. s.l. : Computational Linguistics, 1990.

http://www.statmt.org/moses/

MOSES Statistical Machine Translation System User Manual and Code Guide. Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---

Ngày:09/09/2020 Chia sẻ bởi:Chương

TẢI VỀ XEM ONLINE

Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Tổng quan về bài toán

2.2 Giới thiệu mô hình dịch máy thống kê

2.3 Thực nghiệm

3. Kết luận

4. Tài liệu tham khảo

Tham khảo thêm

Hệ thống thông tin

Công nghệ tri thức

Kỹ thuật máy tính

Khoa học máy tính

Mạng và Hệ thống

Đồ hoạ - Ứng dụng

Công nghệ phần mềm

TRANG CHỦ

HỌC TẬP

TÀI LIỆU

BIỂU MẪU

VĂN BẢN LUẬT

HƯỚNG DẪN

THỦ THUẬT

Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Tổng quan về bài toán

2.2 Giới thiệu mô hình dịch máy thống kê

2.3 Thực nghiệm

3. Kết luận

4. Tài liệu tham khảo

Tham khảo thêm

CÓ THỂ BẠN QUAN TÂM

Hệ thống thông tin

Công nghệ tri thức

Kỹ thuật máy tính

Khoa học máy tính

Mạng và Hệ thống

Đồ hoạ - Ứng dụng

Công nghệ phần mềm

TRANG CHỦ

HỌC TẬP

TÀI LIỆU

BIỂU MẪU

VĂN BẢN LUẬT

HƯỚNG DẪN

THỦ THUẬT