--- Bài mới hơn ---
Trẻ Em Nhật Học Chữ Hán (Kanji) Như Thế Nào? Trẻ Con Nhật Bản Bắt Đầu Học Tiếng Nhật Như Thế Nào? Trẻ Em Nhật Đã Học Ngôn Ngữ “mẹ Đẻ” Như Thế Nào? Đánh Giá Một Số Trung Tâm Học Tiếng Anh Giao Tiếp Ở Nhật Tin Được Không? Hoàn Toàn Có Thể Du Học Nhật Bản Bằng Tiếng Anh!
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
ĐỖ THỊ THUẬN
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG
DỊCH TỰ ĐỘNG JRAI – VIỆT VÀ VIỆT – JRAI
Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng – Năm 2012
2
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS. HUỲNH CÔNG PHÁP
Phản biện 1 : chúng tôi LÊ VĂN SƠN
Phản biện 2 : TS. NGUYỄN MẬU HÂN
Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt
nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 16
tháng 12 năm 2012
Có thể tìm hiểu luận văn tại:
– Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng;
– Trung tâm Học liệu, Đại học Đà Nẵng;
3
MỞ ĐẦU
1. Lý do chọn ñề tài
Cộng ñồng các dân tộc Việt Nam có ñến 54 dân tộc anh em
và Jrai là một dân tộc có dân số khá ñông, chỉ ñứng thứ hai (sau
người Kinh). Người Jrai cư trú trên một dải ñất rộng lớn, chủ yếu
phân bổ ở tỉnh Gia Lai và ñồng bào sử dụng tiếng Jrai làm ngôn ngữ
giao tiếp chính thống. Tuy nhiên, tiếng Việt lại là ngôn ngữ chính
ñược sử dụng ở Việt Nam, ñiều này dẫn ñến việc chuyển tải chủ
trương, ñường lối của Đảng, chính sách, pháp luật của Nhà nước ñến
với các ñồng bào dân tộc Jrai gặp rất nhiều khó khăn. Đồng bào
cũng gặp khó khăn trong việc học tập và tiếp thu tri thức bằng tiếng
Việt.
Ngày nay, ở vào thời ñại công nghệ thông tin bùng nổ, ñể
bảo tồn và phát huy ñược bản sắc các dân tộc, chúng tôi nghĩ ñến
các biện pháp ñưa ngôn ngữ Jrai vào máy tính. Do ñó, việc xây dựng
một hệ thống dịch qua lại giữa tiếng Jrai và tiếng Việt là rất cần
thiết.
Hiện tại, Trung tâm CNTT-TT Sở Thông tin và Truyền
thông Gia Lai và Công ty TNHH Công nghệ thông tin Tuổi trẻ Lạc
Việt ñã cho ra ñời phần mềm “Từ ñiển ñiện tử phương ngữ Jrai Việt” cho phép chúng ta tra nghĩa theo từ. Tuy nhiên, với một tài
liệu lớn muốn dịch từ tiếng Jrai sang tiếng Việt hay ngược lại thì
việc tra cứu từng từ là rất bất cập và mất thời gian.
Xuất phát từ nhu cầu thực tế trên, chúng tôi có ý tưởng
nghiên cứu và xây dựng một hệ thống dịch tự ñộng giữa tiếng Jrai
và tiếng Việt.
4
Hiện nay, có rất nhiều các phương pháp dịch tự ñộng ñã
ñược sử dụng như dịch máy dựa trên luật, dịch máy dựa trên ví dụ
mẫu, dịch máy dựa trên xác suất thống kê, …. Tuy nhiên, dịch máy
dựa trên phương pháp thống kê ñang là một hướng phát triển ñầy
tiềm năng bởi những ưu ñiểm vượt trội so với các phương pháp
khác. Thay vì xây dựng các từ ñiển, các quy luật chuyển ñổi bằng
tay, hệ dịch này tự ñộng xây dựng các từ ñiển, các quy luật dựa trên
kết quả thống kê có ñược từ các kho ngữ liệu. Chính vì vậy, dịch
máy dựa vào thống kê có tính khả chuyển cao áp dụng ñược cho bất
kỳ cặp ngôn ngữ nào.
Với những ñiều kiện và lý do nêu trên, chúng tôi chọn
hướng nghiên cứu về phương pháp dịch máy dựa trên xác suất thống
kê ñể xây dựng hệ thống dịch tự ñộng Jrai – Việt và Việt – Jrai.
2. Mục ñích và nhiệm vụ của ñề tài
Mục ñích của ñề tài là tập trung nghiên cứu, tìm hiểu các
phương pháp dịch máy và áp dụng ñể xây dựng hệ thống dịch tự
ñộng Jrai – Việt và Việt – Jrai.
Nhiệm vụ cụ thể:
–
Nghiên cứu các văn bản tiếng Jrai.
–
Nghiên cứu tổng quan về các phương pháp dịch máy.
–
Đề xuất phương pháp dịch máy hiệu quả và vận dụng ñể
xây dựng hệ thống dịch tự ñộng Jrai – Việt và Việt –
Jrai.
–
Nghiên cứu các phương pháp ñánh giá hệ dịch tự ñộng.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
–
Các văn bản văn hóa hóa tiếng Jrai.
5
–
Các phần mềm dịch tự ñộng hiện có.
–
Các phương pháp dịch tự ñộng.
–
Các công cụ ñánh giá dịch tự ñộng
Phạm vi nghiên cứu
–
Đề tài tập trung vào nghiên cứu về dịch các tài liệu dạng
văn bản văn hóa tiếng Việt và tiếng Jrai.
4. Phương pháp nghiên cứu
–
Tìm hiểu các hệ dịch tự ñộng ñã có ñể tìm ra các
phương pháp dịch máy mà các hệ dịch hiện ñang sử
dụng.
–
Nghiên cứu và ñánh giá các phương pháp dịch máy,
những ưu ñiểm và những hạn chế, sau ñó tìm ra một
phương pháp có hiệu quả và ñề xuất áp dụng cho bài
toán ñề tài ñặt ra.
–
Nghiên cứu các phương pháp ñánh giá chất lượng dịch
máy ñể ñánh giá hiệu quả dịch cho hệ thống ñề tài ñã
xây dựng.
5. Ý nghĩa khoa học và thực tiễn của ñề tài
Ý nghĩa khoa học
–
Hiểu và vận dụng ñược phương pháp dịch máy thống kê
vào thực tiển.
–
Xây dựng thành công phần mềm dịch tự ñộng giữa tiếng
Jrai và tiếng Việt
Ý nghĩa thực tiễn
–
Hệ thống dịch máy giữa tiếng Jrai và tiếng Việt tạo ñiều
kiện thuận lời cho việc nghiên cứu, học tập tiếng Jrai.
6
–
Trợ giúp cho công tác quản lý của cán bộ người Việt ở
Jrai
6. Cấu trúc của luận văn
Luận văn ñược tổ chức gồm 3 chương chính như sau:
CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY
CHƯƠNG 2: PHÂN TÍCH – THIẾT KẾ – ĐẶC TẢ HỆ
THỐNG DỊCH MÁY THỐNG KÊ
CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ HỆ THỐNG
DỊCH MÁY THỐNG KÊ
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
TÀI LIỆU THAM KHẢO
CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY
1.1. KHÁI NIỆM VỀ DỊCH MÁY
Dịch máy hay còn gọi là dịch tự ñộng, thực hiện dịch một
ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn
ngữ khác (gọi là ngôn ngữ ñích) một cách tự ñộng, không có sự can
thiệp của con người trong quá trình dịch.
1.2. LỊCH SỬ DỊCH MÁY
1.3. MỘT SỐ DỊCH VỤ DỊCH MÁY
1.3.1. Google
Trang Web truy cập http://translate.google.com
1.3.2. Microsoft
Trang Web truy cập http://www.microsofttranslator.com/
1.3.3. EVTRAN
EVTRAN (English Vietnamese Translator), phần mềm dịch
tự ñộng Anh – Việt.
7
1.3.4. Vdic
Trang Web truy cập http://vdict.com/?autotranslation
1.3.5. Lạc Việt
Trang Web truy cập http://tratu.vietgle.vn/hoc-tienganh/dich-van-ban.html
1.3.6. Yahoo!
Trang Web truy cập http://babelfish.yahoo.com
1.4. NHẬN XÉT VỀ CHẤT LƯỢNG DỊCH TIẾNG VIỆT
Các dịch vụ dịch máy hiện nay nhìn chung là hiệu quả dịch
chưa cao, một số dịch vụ chưa có hỗ trợ dịch tiếng Việt. Do chất
lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự ñộng ñều chỉ
mang tính tham khảo, các bản dịch chỉ cho biết ñại ý và nó hoàn
toàn có thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn
bản.
1.5. CÁC PHƯƠNG PHÁP DỊCH MÁY
1.5.1. Dịch trực tiếp (Direct MT)
1.5.1.1. Khái niệm
Hệ thống dịch bằng cách thay thế những từ/ngữ trong ngôn
ngữ nguồn bằng những từ/ngữ trong ngôn ngữ ñích một cách máy
móc.
1.5.1.2. Phân tích hình thái
Trong ngôn ngữ học, phân tích hình thái ngôn ngữ là xác
ñịnh, phân tích và miêu tả cấu trúc của hình vị (âm tiết) và các ñơn
vị ý nghĩa khác như từ, phụ tố, từ loại, thanh ñiệu, hàm ý.
1.5.2. Dịch máy theo chuyển ñổi cú pháp (Syntactic
Transfer MT)
Hệ thống dịch bằng cách phân tích (hình thái và cú pháp)
câu của ngôn ngữ nguồn và sau ñó áp dụng những luật ngôn ngữ và
8
từ vựng (gọi là quy luật chuyển ñổi) ñể ánh xạ thông tin văn phạm
từ ngôn ngữ nguồn sang ngôn ngữ ñích.
1.5.3. Dịch máy qua ngôn ngữ trung gian (Interlingual
MT)
1.5.3.1. Khái niệm
Hệ thống dịch qua một ngôn ngữ trung gian gọi là liên ngôn
ngữ (interlingual).
1.5.3.2. Ngôn ngữ trung gian UNL (Universal Networking
Language)
Đây là một ngôn ngữ trung gian biểu ñạt riêng cho máy tính,
cho phép biểu diễn về mặt ngữ nghĩa ở mức ñơn giản nhất có thể
(giảm thiểu những rắc rối do vấn ñề ngữ nghĩa).
1.5.4. Dịch máy dựa theo luật (RBMT: Rule-based MT)
Cách tiếp cận truyền thống này dựa vào các luật dẫn thường
ñược xây dựng bằng tay bởi các chuyên gia ngôn ngữ.
1.5.5. Dịch máy dựa trên ví dụ (EBMT: Example-based
MT)
Theo cách tiếp cận này, khi hệ dịch nhận ñược một câu
ngôn ngữ nguồn, hệ thống sẽ so khớp với các mẫu trong kho ngữ
liệu song ngữ ñể xác ñịnh mẫu nào gần ñúng nhất và ñưa ra thành
phần dịch tương ứng của mẫu ñó.
1.5.6. Dịch máy dựa trên cơ sở tri thức (KBMT:
Knowledge-Based MT)
Theo cách dịch này, máy tính phải ñược trang bị tri thức
ngôn ngữ và tri thức về thế giới thực y như con người. Do ñó, chúng
ta phải xây dựng một cơ sở tri thức khổng lồ mà bao trùm ñược mọi
tri thức về thế giới thực ở mọi lĩnh vực.
9
1.5.7. Dịch máy dựa trên thống kê (SMT: Statistical-based
MT)
Cách tiếp cận dịch máy dựa trên thống kê ñể xây dựng từ
ñiển và các quy luật dịch một cách tự ñộng. Để thực hiện ñược ñiều
này, cần có một kho ngữ liệu song ngữ rất lớn.
1.5.8. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based
MT)
Dựa trên cơ sở ngôn ngữ học và công nghệ máy học ñể có
ñược các bộ luật chuyển ñổi nhờ vào kho ngữ liệu dạng ñơn ngữ hay
song ngữ. Các luật này phải ñược ñảm bảo là chính xác, bao quát,
không mâu thuẫn và dễ kiểm soát hơn so với các luật ñược xây dựng
một cách thủ công của các nhà ngôn ngữ học.
1.6. NHẬN XÉT CÁC PHƯƠNG PHÁP DỊCH MÁY
1.7. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG
DỊCH MÁY
1.7.1. Đánh giá chủ quan (Subjective)
Do con người trực tiếp ñánh giá theo tính ñầy ñủ và ñộ trôi
chảy của bản dịch (ñiểm số 1 ñến 5).
1.7.2. Đánh giá khách quan (Objective)
1.7.2.1. BLEU (BiLingual Evaluation Understudy)
BLEU ñược ñề xuất bới IBM tại hội nghị ACL ở
Philadelphie vào tháng 7-2001. Ý tưởng chính của phương pháp là
so sánh kết quả bản dịch tự ñộng bằng máy với một bản dịch chuẩn
dùng làm bản ñối chiếu.
10
1.7.2.2. NIST (National Institute of Standards and
Technology)
NIST phát triển dựa trên phương pháp BLEU nhưng có một
khác biệt về quan ñiểm ñánh giá là việc chọn lựa N-grams và thông
tin trên mỗi n-gram sẽ ñược sử dụng ñể phục vụ việc ñánh giá. NIST
ñánh số ñiểm cao hơn cho các n-gram chứa nhiều thông tin hơn
trong khi ñối với BLEU là như nhau nếu cùng số từ. Với tiêu chuẩn
này, số ñiểm cao thì hệ dịch ñược xem là tốt.
CHƯƠNG 2: PHÂN TÍCH -THIẾT KẾ – ĐẶC TẢ HỆ
THỐNG DỊCH MÁY THỐNG KÊ
2.1. PHƯƠNG PHÁP DỊCH MÁY THỐNG KÊ
2.1.1. Lý thuyết xác suất
Lý thuyết xác suất ñược sử dụng khi chúng ta phải xử lý các
sự kiện với những kết quả không chắc chắn, và có nhiều khả năng có
thể xảy ra.
2.1.1.1. Phân phối xác suất
Về mặt toán học, một phân phối xác suất là một hàm ánh xạ
trả về các giá trị giữa 0 và 1.
2.1.1.2. Ước lượng phân phối xác suất
Ước lượng phân phối xác suất dịch từ vựng bằng cách ñếm
số lần xuất hiện của từ, sau ñó lấy tỷ lệ với tổng số từ có trong bộ
ngữ liệu.
pf : e → pf ( e)
(2.1)
pf thỏa mãn 2 thuộc tính:
p f (e ) = 1
(2.2)
e
∀e : 0 ≤ p f (e) ≤ 1
(2.3)
∑
pf(e) có giá trị cao hơn nếu từ tiếng Anh e là một bản dịch
thông dụng, giá trị thấp nếu từ tiếng Anh e là bản dịch hiếm ñược sử
dụng, giá trị 0 nếu không có bản dịch tương ứng.
11
2.1.2. Các mô hình dịch máy thống kê
2.1.2.1. Dịch máy thống kê dựa trên cơ sở từ (Word-based
SMT)
Các mô hình dịch máy thông kê ban ñầu dựa trên ñơn vị từ,
dịch từng từ, có thể thêm hoặc bớt từ sau ñó sắp xếp các từ lại thành
bản dịch. Bản dịch một cặp câu chính là sự ánh xạ các từ tương ứng
giữa 2 ngôn ngữ thông qua chức năng liên kết từ. Mô hình dịch dựa
trên ñơn vị từ không cho kết quả tốt trong trường hợp kết nối 1nhiều, nhiều-1 hoặc nhiều-nhiều. Khi ñó, phân tích dựa trên ñơn vị
cụm từ ñược ñề xuất ñể giải quyết vấn ñề này.
2.1.2.2. Dịch máy thống kê dựa trên cơ sở cụm từ (Phrasebased SMT)
Đây là mô hình dịch máy thống kê thực thi tốt nhất hiện
nay. Ở ñây, khái niệm cụm từ không theo ñịnh nghĩa của ngôn ngữ
học mà ñược sinh ra dựa vào các phương pháp thống kê áp dụng
trên ngữ liệu học. Một chuỗi các từ liên tiếp ñược dịch sang ngôn
ngữ ñích, với ñộ dài cụm từ ngôn ngữ nguồn và ñích có thể khác
nhau. Hình 2.1 minh hoạ quá trình dịch máy thống kê dựa trên cụm
từ, dịch từ tiếng Đức sang tiếng Anh.
natuerlich
of couse
hat
john
john
spass am
has
fun with the
spiel
game
Hình 2.1 Ví dụ về dịch thống kê dựa trên cụm từ
2.1.2.3. Dịch máy dựa trên cú pháp (Tree-based SMT)
Câu ngôn ngữ nguồn f ñược phân tích thành cây cú pháp.
Cây cú pháp này sẽ ñược sắp xếp lại ñể phù hợp với cú pháp của câu
ngôn ngữ ñích e. Sau ñó, một số từ mới có thể ñược chèn vào cây
12
hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ ñích. Cuối cùng,
các từ trong cây cú pháp của câu ngôn ngữ nguồn sẽ ñược dịch sang
ngôn ngữ ñích.
2.2. QUY TRÌNH XÂY DỰNG HỆ THỐNG DỊCH MÁY
THỐNG KÊ
Koehn mô tả một cách khái quát quá trình dịch thống kê dựa
trên cụm từ như sau:
– Câu nguồn ñược tách thành các cụm từ
– Mỗi cụm từ ñược dịch sang ngôn ngữ ñích.
– Các cụm từ ñã dịch ñược sắp xếp theo một thứ tự phù
hợp
2.3. CÁC THÀNH PHẦN CỦA MỘT HỆ THỐNG DỊCH
MÁY THỐNG KÊ
Một mô hình dịch máy bao gồm 3 thành phần:
– Mô hình ngôn ngữ: Phản ánh ñộ trôi chảy của câu dịch
và ñược huấn luyện trên ngữ liệu ñơn ngữ
– Mô hình dịch: Cho biết xác suất của câu ngôn ngữ
nguồn là bản dịch từ câu ngôn ngữ ñích và ñược huấn
luyện trên dừ liệu song ngữ.
– Bộ giải mã: Thuật toán tìm kiếm ra bản dịch tốt nhất
cho câu ngôn ngữ nguồn.
2.3.1. Mô hình ngôn ngữ
Đây là một trong những thành phần quan trọng của bất kỳ
hệ thống dịch máy thống kê, nó là các phân phối xác suất trên một
ngữ liệu ñơn ngữ, dùng ñể ño mức ñộ chính xác của việc sắp xếp
các từ trong bản dịch.
2.3.1.1. Mô hình ngôn ngữ n-gram
Mô hình này dựa trên số liệu thống kê về khả năng các từ có
thể ñi theo nhau trong câu.
13
--- Bài cũ hơn ---
Người Ấn Muốn Phát Triển Tiếng Hindi Tại Việt Nam Hướng Dẫn Tạo Video Nói Tiếng Hindi Sử Dụng Ai Những Lợi Ích Từ Việc Học Tiếng Hindi Học Tiếng Hindi Miễn Phí Cho Android Tải Học Tiếng Hindi Miễn Phí Cho Máy Tính Pc Windows Phiên Bản