Chúng tôi ñề nghị phân ñoạn từ cho hệ dịch
Hoa-Việt. ðể tránh trường hợp bỏ mất các gióng
hàng từ giữa các hình vị có nghĩa khi phân ñoạn từ,
chúng tôi sẽ tiến hành phân rã từ thành các hình vị
có nghĩa nhỏ hơn. Một thách thức khi phân rã một
từ thành các hình vị nhỏ hơn là có thể nghĩa của các
hình vị không có liên quan gì ñến nghĩa của từ chứa
nó. Do ñó, theo chúng tôi, chỉ những từ mà các hình
vị tạo ra nó có nghĩa giống hoặc liên quan ñến nó
chúng tôi mới tiến hành phân rã. Thí dụ: với từ 走
进 (ñi vào) gồm hai hình vị 走/ñi và 进/vào; nghĩa
của hai hình vị gộp lại cũng chính là nghĩa của từ;
do ñó, từ này sẽ ñược phân rã thành hai hình vị. Tuy
nhiên, ñối với từ 是的 (ñúng) cũng gồm hình vị 是
/là và 的/của; nghĩa của hai hình vị này không có
liên quan gì ñến từ 是的. Do ñó, từ 是的 sẽ không
ñược phân rã.
Chúng tôi cũng ñề xuất một hướng tiếp cận mới
nhằm dịch lại các từ mới (unknown word: UKW)
tiếng Hoa cho trường hợp dịch phân ñoạn từ. Bản
thân chữ Trung Quốc ñược phát âm khác nhau,
ngay tại Trung Quốc, tuỳ từng vùng mà có nhiều
giọng hoặc âm ñọc khác nhau, như tiếng Quảng
ðông, tiếng Phúc Kiến, tiếng Triều Châu, tiếng Bắc
Kinh, . Các nước lân cận như Triều Tiên có cách
ñọc riêng của người Triều Tiên, gọi là Hán-Triều (
漢朝); người Nhật có cách ñọc riêng của người
Nhật, gọi là Hán-Hòa (漢和); và người Việt có cách
ñọc của mình gọi là Hán-Việt (漢越). Như vậy, âm
Hán Việt là cách ñọc tiếng Hán (tiếng Hoa) của
người Việt. Thông thường, một ký tự tiếng Hoa sẽ
có một âm Hán Việt và một nghĩa Thuần Việt, một
số trường hợp âm Hán Việt cũng chính là nghĩa
Thuần Việt. Thí dụ: ký tự 水 có âm Hán Việt là
“thủy”, Thuần Việt là “nước”; ký tự 东 có âm Hán
Việt là “ñông” (trong “ñông tây nam bắc”), Thuần
Việt cũng có nghĩa là “ñông”. Một ñiểm ñặc biệt
nữa giữa tiếng Hoa và Tiếng Việt ñó là các tên riêng
thuộc tên người, tên tổ chức và ñịa danh của tiếng
Hoa sẽ ñược dịch sang tiếng Việt chính là âm Hán
Việt của chúng. Quan hệ ñặc biệt về nghĩa giữa
tiếng Hoa và tiếng Việt là cơ sở quan trọng cho
phương pháp dịch lại từ mới của chúng tôi trong
tương lai.
KẾT LUẬN
Trong bài báo này, chúng tôi ñã tiến hành khảo
sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả
dịch thống kê Hoa-Việt. Với kho ngữ liệu sạch, dữ
liệu phân bố ñồng ñều thì khi tăng số câutrong kho
ngữ liệu chất lượng dịch sẽ tăng theo. Hiệu suất
dịch máy cũng sẽ tăng ñáng kể nếu như ngữ liệu
ñược phân ñoạn từ. Bài báo cũng ñã trình bày lại
một số cải tiến phân ñoạn từ nhằm tăng hiệu suất
dịch thống kê Hoa-Anh-Hoa. Hai cải tiến ñáng kể
ñó là phân ñoạn từ dựa vào song ngữ và phân rã từ
thành các hình vị có nghĩa nhỏ hơn. Dựa vào kết
quả thực nghiệm cho hệ dịch thống kê Hoa-Việt,
chúng tôi cũng ñã ñề xuất một số phương pháp cải
tiến phân ñoạn từ cũng như dịch lại từ mới nhằm
tăng chất lượng dịch máy thống kê Hoa-Việt.
Trong nghiên cứu tiếp theo, chúng tôi sẽ tiến
hành hiện thực hóa phương pháp cải tiến của mình
cho hệ dịch Hoa-Việt, giúp cho chất lượng dịch của
hệ thống dịch Hoa-Việt ngày càng tốt hơn.
9 trang |
Chia sẻ: thucuc2301 | Lượt xem: 439 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt - Trần Thanh Phước, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Science & Technology Development, Vol 18, No.T2- 2015
Trang 70
Khảo sát yếu tố ranh giới từ trong dịch
thống kê Hoa-Việt
•
Trần Thanh Phước
Trường ðại học Tôn ðức Thắng
•
ðinh ðiền
Trường ðại học Khoa học Tự nhiên, ðHQG-HCM
( Bài nhận ngày 04 tháng 03 năm 2015, nhận ñăng ngày 12 tháng 06 năm 2015)
TÓM TẮT
Trong các ngôn ngữ ñơn lập như tiếng
Hoa và tiếng Việt, các từ không ñược phân
biệt với nhau bởi khoảng trắng, một từ có thể
bao gồm một hoặc nhiều từ chính tả. Việc có
nên phân ñoạn từ hay không trước khi cho
qua hệ thống huấn luyện và dịch là vấn ñề
cần ñược xem xét. Trong bài báo này, chúng
tôi sẽ tiến hành khảo sát ảnh hưởng của yếu
tố ranh giới từ ñến kết quả dịch thống kê
Hoa-Việt. Kết quả thực nghiệm của bài báo
sẽ làm cơ sở cho các hướng nghiên cứu cải
tiến phân ñoạn từ tiếp theo nhằm tăng hiệu
suất dịch. Chúng tôi ñã khảo sát trên hai
trường hợp sau: không phân ñoạn từ và
phân ñoạn từ trên kho ngữ liệu 8.000 và
12.000 cặp câu. Dựa trên kết quả thực
nghiệm, chúng tôi nhận thấy rằng: ngữ liệu
chưa phân ñoạn từ hoặc ñược phân ñoạn từ
ñều có những ưu và khuyết ñiểm riêng. Một
hướng cải tiến mà bài báo ñề xuất là tích
hợp các ưu ñiểm của hai phương pháp này
vào hệ thống dịch máy.
T khóa: Dịch thống kê, ranh giới từ, phân ñoạn từ, hình vị.
GIỚI THIỆU
Không giống với các ngôn ngữ phương Tây,
ñiển hình là tiếng Anh, các từ trong tiếng Hoa và
tiếng Việt không ñược phân biệt bởi khoảng
trắng. Một câu tiếng Hoa bao gồm một dãy các từ
chính tả, kể cả dấu câu, nằm liên tiếp với nhau và
không có khoảng trắng giữa các từ chính tả này.
Trong tiếng Việt, các từ chính tả ñược phân cách
với nhau bởi một khoảng trắng, các dấu câu nằm
liền sau từ chính tả. Do ñó, vấn ñề phân ñoạn từ
luôn ñược giải quyết ñầu tiên trong bài toán dịch
máy từ tiếng Hoa, Việt sang ngôn ngữ khác (chủ
yếu là tiếng Anh).
Một từ tiếng Hoa thường bao gồm nhiều hình
vị có nghĩa, thường ñược chia thành ba trường
hợp. Trường hợp một: nghĩa của các hình vị
giống hoặc có liên quan ñến nghĩa của từ chứa
các hình vị ñó; trường hợp hai: nghĩa của từng
hình vị không liên quan gì ñến nghĩa của từ chứa
nó; trường hợp ba: nghĩa của các hình vị trong từ
bị ñảo trật tự. Thí dụ như ở Bảng 1.
Bảng 1. Nghĩa của hình vị và từ chứa hình vị ở tiếng Hoa
Từ Âm Hán Việt Nghĩa Hình vị có nghĩa
教师 Giáo sư Thầy dạy, giáo sư, thầy 教: dạy 师: thầy
花完 Hoa hoàn Chi tiêu, xài hết 花: hoa完: xong
放假 Phóng giả Nghỉ phép 放: thả 假: giả
银行卡 Ngân hàng tạp Thẻ ngân hàng 银行: ngân hàng 卡: thẻ
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015
Trang 71
Từ 教师 bao gồm các hình vị có nghĩa tương
ñồng với nghĩa của chúng. Trong khi ñó, các từ
花完, 放假 ñã không còn giữ các nghĩa của các
hình vị tạo nên chúng. Trường hợp còn lại, từ 银
行卡 nếu không ñảo trật tự thì nghĩa tiếng Việt
tương ứng sẽ là “ngân hàng thẻ”, trong khi ñó
nghĩa ñúng sẽ là “thẻ ngân hàng”, nghĩa của các
hình vị trong từ chứa nó bị ñảo trật tự. Ý nghĩa
tương tự cho từ tiếng Việt; ñiển hình như từ “ba
hoa” (nghĩa: nói nhiều, phóng ñại quá sự thật)
bao gồm hai hình vị: “ba” có nghĩa thông thường
là “số 3, người sinh ra mình”, “hoa” trong “bông
hoa”; ý nghĩa hai hình vị này không liên quan gì
ñến từ chứa chúng.
Chính sự thay ñổi về nghĩa, về trật tự của các
hình vị khi chúng kết hợp với nhau ñể tạo nên từ
ở cả tiếng Hoa và tiếng Việt nên khi dịch từ tiếng
Hoa, tiếng Việt sang tiếng Anh hoặc ngược lại thì
phân ñoạn từ luôn là công việc ñược thực hiện
ñầu tiên (nhằm tạo tương ứng “từ” – “từ”).
Nhưng liệu ñối với cặp ngôn ngữ mà cả hai ñều
không xác ñịnh ñược ranh giới từ bởi khoảng
trắng như tiếng Hoa và Việt thì biện pháp phân
ñoạn từ có cho kết quả tốt hơn? Bài báo này
chúng tôi sẽ khảo sát sự ảnh hưởng của yếu tố
ranh giới từ ñến hiệu suất dịch thống kê Hoa-
Việt. Từ cơ sở thực nghiệm, chúng tôi sẽ giới
thiệu các phương pháp cải tiến phân ñoạn từ
nhằm nâng cao hiệu suất dịch cho cặp ngôn ngữ
Hoa-Việt.
Bài báo này bao gồm các nội dung sau:
Công trình liên quan ñến phân ñoạn từ Hoa-Việt.
Các thử nghiệm về phân ñoạn từ, không phân
ñoạn từ và các kết quả thực nghiệm tương ứng.
Một số thảo luận cũng như các ñề xuất cải tiến
phân ñoạn từ.
Kết luận và hướng phát triển tiếp theo.
CÁC CÔNG TRÌNH LIÊN QUAN
ðối với các loại ngôn ngữ mà từ không ñược
xác ñịnh bởi khoảng trắng như tiếng Hoa và Việt
thì việc phân ñoạn từ luôn ñược thực hiện ñầu
tiên trong các bài toán xử lý ngôn ngữ, ñiển hình
như: nhận dạng chủ ñề văn bản, dịch máy, Có
nhiều phương pháp phân ñoạn từ, chủ yếu tập
trung vào hai hướng: hướng dựa vào tri thức từ
vựng và hướng dựa vào tri thức ngôn ngữ
(phương pháp thống kê dựa vào ngữ liệu lớn).
Phương pháp so khớp cực ñại (Maximum
Matching) dựa vào từ ñiển là một ñiển hình của
phương pháp phân ñoạn từ theo hướng tri thức từ
vựng; phương pháp tách từ dựa vào thống kê phổ
biến hiện nay cho cả tiếng Hoa và Việt là CRF
(Conditional Random Fields) [1]. Với ưu thế về
ngữ liệu có sẵn và không ñòi hỏi người nghiên
cứu phải hiểu sâu về tri thức ngôn ngữ nên các
phương pháp phân ñoạn từ theo hướng thống kê
chiếm ưu thế hơn so với các phương pháp dựa
vào từ vựng. Phân ñoạn từ nhằm mục ñích làm
tăng hiệu suất dịch của dịch máy thống kê
(statistic machine translation: SMT) là một trong
những hướng nghiên cứu tiên tiến hiện nay. Từ
ñược phân ñoạn lúc này không hoàn toàn ñúng
với ý nghĩa của từ theo ñịnh nghĩa của các nhà
ngôn ngữ, từ ở ñây có thể là từ ngữ dụng lớn hơn
ý nghĩa của từ ngôn ngữ hoặc từ chỉ là một hình
vị có nghĩa nhỏ hơn từ ngôn ngữ. Ý nghĩa chung
cuộc của việc ñiều chỉnh phân ñoạn từ là làm sao
trong ngữ liệu huấn luyện các từ ñược bao phủ
càng nhiều càng tốt và kết quả gióng hàng càng
có nhiều ánh xạ 1-1.
ðể làm ñược ñiều này, ñối với tiếng Hoa,
theo tác giả Ruiqiang Zhang và các cộng sự [4]
thì cần phải tích hợp nhiều phương pháp phân
ñoạn từ lại với nhau, bao gồm cả phân ñoạn từ
dựa vào từ ñiển và dựa vào thống kê. Một hướng
cải tiến khác là phân ñoạn từ dựa vào song ngữ
của nhóm tác giả Yanju Ma và Andy Way [5].
Theo các tác giả, việc phân ñoạn từ thông thường
chỉ dựa vào ngữ liệu ñơn ngữ mà không có bất kỳ
sự quan tâm nào ñến nguồn ngữ liệu song ngữ,
việc phân ñoạn từ ở ngôn ngữ nguồn không chắc
tương ứng với phân ñoạn từ ở ngôn ngữ ñích,
ñiều này dẫn ñến kết quả gióng hàng từ bị sai.
Science & Technology Development, Vol 18, No.T2- 2015
Trang 72
Mặt khác, hầu hết các công cụ phân ñoạn từ
hiện nay ñều ñược huấn luyện trên một ngữ liệu
thuộc một lĩnh vực nào ñó. Việc phân ñoạn từ
như vậy sẽ dẫn ñến tính cục bộ về nghĩa của từ và
chắc chắn sẽ cho kết quả không tốt khi áp dụng
vào nhiều lĩnh vực khác.
Phân rã các từ tiếng Hoa thành các hình vị có
nghĩa nhỏ hơn cũng là một phương pháp phổ biến
hiện nay nhằm tăng hiệu suất dịch (Ming-Hong
Bai, , 2008)[6]. Nhóm tác giả ñã sử dụng
phương pháp học không giám sát nhằm phân rã
các từ thành các hình vị nhỏ hơn với mục ñích là
tạo ra càng nhiều ánh xạ 1-1 càng tốt. Tiếng Hoa
với các từ ña âm tiết bao gồm nhiều hơn một hình
vị có nghĩa và ñược dịch sang nhiều từ tiếng Anh.
Thí dụ: từ 教育署 ñược dịch sang tiếng Anh là
“Department of Education” (Sở Giáo dục). Từ 署
có nghĩa thông thường là “Ban”, “Khoa”, “Sở”
(Department), 教育 có nghĩa là “giáo dục”. Việc
phân ñoạn từ như trên sẽ làm giảm tổng số lần
ñồng xuất hiện của cặp từ Hoa-Anh ñồng thời
tăng cường nhiều hơn gióng hàng n-1. Thí dụ: do
教育署 là một từ nên nó không ñóng góp gì cho
cặp 教育/Education và 署/Department. Mặt khác
cặp từ “教育署/Education of Department” sẽ tạo
ra gióng hàng n-1: 教育署 -> Educattion và教育
署-> Department. Do ñó, nhóm tác giả ñã ñề xuất
phân rã từ tiếng Hoa thành các hình vị có nghĩa
nhỏ hơn.
Một trong những ñặc ñiểm chung của các
phương pháp cải tiến phân ñoạn từ tiếng Hoa ở
trên là việc cải tiến ñược áp dụng cho cặp ngôn
ngữ Hoa-Anh hoặc Anh-Hoa. Tiếng Anh với
khoảng trắng là dấu hiệu cho biết ranh giới từ,
ñây là ñiểm vô cùng quan trọng cho các phương
pháp cải tiến. ðiển hình như phương pháp phân
rã từ thành các hình vị nhỏ hơn, không phải bất
kỳ từ tiếng Hoa nào bao gồm nhiều hình vị có
nghĩa cũng ñều ñược phân rã, chỉ có những từ
gióng hàng với nhiều từ tiếng Anh mới là ứng
viên cần phân rã. Thí dụ: “washing machine/洗衣
机” có thể ñược tách thành 洗衣 và 机 tương ứng
với “washing” và “machine”, nhưng “heater/暖气
机” thì không ñược tách thành 暖气 và 机, vì từ
này ñược gióng hàng với một từ tiếng Anh duy
nhất “heater”.
Cũng giống như tiếng Hoa, phân ñoạn từ
tiếng Việt cũng ñược các nhà nghiên cứu quan
tâm và cài ñặt thử nghiệm; hướng tiếp cận dựa
vào thống kê cũng chiếm ưu thế hơn so với
hướng dựa vào từ ñiển. Nhóm tác giả Cam-Tu
Nguyen [8] cũng thực hiện phân ñoạn từ tiếng
Việt dựa vào CRF (như tiếng Hoa). Trong khi ñó,
nhóm VCL của ðinh ðiền [8] thì phân ñoạn từ
theo phương pháp SVM và sau này là phân ñoạn
từ dựa vào ngữ dụng. Chúng tôi sử dụng phân
ñoạn từ tiếng Hoa theo CRF và tiếng Việt theo
ngữ dụng của nhóm VCL trong việc phân ñoạn từ
tiếng Việt của kho ngữ liệu thử nghiệm.
CÁC THỬ NGHIỆM RANH GIỚI TỪ
TRONG DỊCH THỐNG KÊ HOA-VIỆT
Ngữ liệu thử nghiệm
Kho ngữ liệu song ngữ thử nghiệm của
chúng tôi bao gồm 12.000 cặp câu ñược chúng
tôi tổng hợp từ các sách giáo khoa ñàm thoại
tiếng Hoa và các diễn ñàn tiếng Hoa online. Văn
bản trong kho ngữ liệu chủ yếu là văn bản giao
tiếp phổ thông, chiều dài của các câu tương ñối
ngắn, bình quân khoảng 10 từ trong một câu.
Chất lượng kho ngữ liệu khá sạch, nội dung ngữ
liệu ñồng nhất và trải ñều trong 12.000 câu.
Chúng tôi tiến hành thử nghiệm trên hai kho ngữ
liệu: 8.000 và 12.000 cặp câu. Trong cả hai kho
ngữ liệu, chúng tôi sử dụng 90 % tổng số câu cho
huấn luyện (training), 5 % số câu dành cho kiểm
tra (testing) và 5 % số câu còn lại dành cho ñiều
chỉnh tham số (developing). Ngữ liệu huấn luyện
(các câu dành cho huấn luyện và ñiều chỉnh tham
số) ñược huấn luyện bằng công cụ Moses với các
tham số mặc ñịnh (SMT Baseline). Chúng tôi sử
dụng bộ ngữ liệu này ñể thực hiện hai thử
nghiệm: ngữ liệu chưa ñược phân ñoạn từ và ngữ
liệu ñược phân ñoạn từ.
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015
Trang 73
Thiết lập ngữ liệu và tiến hành thử nghiệm
ðối với ngữ liệu chưa phân ñoạn từ, chúng
tôi xem các ký tự tiếng Hoa và từ chính tả tiếng
Việt như những ñơn vị ñộc lập. Chúng tôi tiến
hành chèn một khoảng trắng vào giữa các ký tự
tiếng Hoa; ví dụ: “明天我去她家。” (Ngày
mai tôi ñi ñến nhà cô ấy.) ->“明天我去她家。
”. ðối với tiếng Việt, chúng tôi thực hiện chèn
khoảng trắng vào giữa các từ chính tả với các
dấu câu (. , ? ! : ); ví dụ câu: “Tôi nói tiếng
Hoa, bạn có hiểu không?”-> “Tôi nói tiếng Hoa
, bạn có hiểu không ?”.
Trường hợp ngữ liệu ñược phân ñoạn từ,
chúng tôi tiến hành phân ñoạn từ tiếng Hoa
bằng công cụ Stanford Chinese Segmenter1 do
nhóm tác giả Pi-Chuan Chang, Huihsin Tseng
và Galen Andrew thuộc trường ðại học
1
Download tại ñịa chỉ:
Stanford thực hiện. ðây là công cụ phân ñoạn
từ ñược cài ñặt theo phương pháp CRF
(Conditional Random Field), ñược sử dụng phổ
biến hiện nay. ðối với tiếng Việt, chúng tôi
phân ñoạn từ bằng công cụ của nhóm VCL.
Khái niệm từ trong công cụ này là từ theo ngữ
dụng, ứng dụng hiệu quả trong dịch máy thống
kê.
Sau khi thiết lập ngữ liệu thử nghiệm,
chúng tôi tiến hành huấn luyện và dịch thống
kê bằng công cụ Moses cho cả hai trường hợp
phân ñoạn từ và chưa phân ñoạn từ trên ngữ
liệu 8.000 và 12.000 cặp câu. ðiểm BLEU cho
từng trường hợp như sau:
Hình 1. Kết quả thử nghiệm
46.23
49.02
47.7
49.14
44
45
46
47
48
49
50
8000 cặp câu
chưa phân ñoạn
từ
8000 cặp câu
ñã phân ñoạn
từ
12000 cặp câu
chưa phân ñoạn
từ
12000 cặp câu
ñã phân ñoạn
từ
Science & Technology Development, Vol 18, No.T2- 2015
Trang 74
THẢO LUẬN
Qua hai thử nghiệm, chúng tôi nhận thấy
rằng: khi tăng số câu trong kho ngữ liệu thì chất
lượng dịch của cả hai trường hợp tăng theo. Thật
vậy, ngữ liệu tăng ñồng nghĩa với việc vốn từ
trong “từ ñiển” gióng hàng phong phú hơn, bao
quát hơn; hệ thống có khả năng nhận dạng nhiều
từ hơn trong quá trình giải mã và cuối cùng hệ
thống sẽ cho kết quả dịch tốt hơn.
Bên cạnh ñó, chất lượng dịch máy sẽ tăng rõ
rệt khi chúng tôi tiến hành phân ñoạn từ cho hai
kho ngữ liệu 8.000 và 12.000 cặp câu. Sau khi
phân ñoạn từ, hệ dịch cho kết quả với các từ ñược
dịch ñúng nghĩa hơn so với trường hợp chưa
phân ñoạn từ. Sau ñây là bốn trường hợp ñiển
hình trong 600 câu kiểm tra trong bộ dữ liệu thử
nghiệm của chúng tôi (Bảng 2 và Bảng 3).
Bảng 2. Nghĩa của hình vị và từ chứa chúng
STT Từ tiếng
Hoa
Nghĩa ñúng Câu dịch chưa phân ñoạn từ Câu dịch ñã phân
ñoạn từ
1 是的 ðúng (true, yes) là của (is of) ñúng
2 花完 xài hết (spend all) hoa xong (flower end) xài hết
3 假使 giả sử (if) Phép làm cho (holliday mak) giả sử
4 银行卡 thẻ ngân hàng (bank card) Ngân hàng thẻ (card bank) thẻ ngân hàng
Bảng 3. Kết quả gióng hàng của hình vị, từ
STT Chưa phân ñoạn từ ðã phân ñoạn từ
1 是 -> là (is) 的 -> của (of)
是的 -> ñúng (true, yes)
2 花 -> hoa (flower) 完 -> xong (end)
花完 -> xài hết (spend all)
3 假 -> phép (holliday) 使 -> làm cho (make)
假使 -> giả sử (if)
4 银行 -> ngân hàng (bank) 卡 -> thẻ (card)
银行卡 -> thẻ ngân hàng (bank card)
Có hai lý do cho ưu ñiểm này: một là do
nghĩa của các hình vị không giống hoặc không
liên quan ñến nghĩa của từ chứa chúng (trường
hợp 1, 2 và 3); hai là do trật tự của các hình vị
trong từ bị ñảo. Hai ñiều này ñã làm giảm chất
lượng dịch khi chưa phân ñoạn từ. Ở từ số 1, từ
是/ là, từ 的/ của; trong khi ñó, từ 是的 có nghĩa
là “ñúng”. Ý nghĩa này không liên quan gì ñến ý
nghĩa “là”, “của” ở các hình vị. Tương tự ở
trường hợp 2, từ 花/hoa (trong bông hoa), từ 完/
xong. Kết hợp với nhau, 花完 tạo thành một từ
duy nhất có nghĩa là “xài hết”; “hoa xong” không
liên quan gì ñến “xài hết”. Ở trường hợp 3, từ 假
ñược gióng hàng là “phép” (放假 ->“nghỉ phép”),
từ 使 có nghĩa là “khiến”, “làm cho”. Từ 假使
/“giả sử” (hoặc “nếu như”) khác biệt hoàn toàn
với nghĩa của hai hình vị 假,使 (“phép làm cho”).
Khác với trường hợp 1, 2 và 3; ở trường hợp
4 nghĩa của các hình vị so với nghĩa của từ chứa
các hình vị ñó giống nhau, sự khác biệt ở ñây là
trật tự của các hình vị khi ñược dịch sang ngôn
ngữ ñích. Hai hình vị 银行/ “ngân hàng” và 卡
/“thẻ” dịch thành “ngân hàng thẻ”; trong khi ñó
từ “银行卡” dịch ñúng sẽ là “thẻ ngân hàng”. Ý
nghĩa của “ngân hàng thẻ” và “thẻ ngân hàng”
gần như nhau, chỉ khác trật tự từ.
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015
Trang 75
Cũng từ kết quả thực nghiệm, chúng tôi nhận
thấy rằng: hệ dịch ñã qua phân ñoạn từ mặc dù chất
lượng chung cuộc tốt hơn so với chưa phân ñoạn từ
nhưng kết quả dịch lại xuất hiện nhiều từ mới hơn
(hệ dịch không dịch ñược các từ này). Nguyên nhân
chính của trường hợp này là do trong 600 câu thử
nghiệm của trường hợp ñã phân ñoạn từ (bộ ngữ
liệu 12.000 cặp câu) có nhiều từ mới và hệ thống
không dịch ñược các từ này (do các từ mới này
không tồn tại trong 10.800 câu huấn luyện). Tổng
số từ ở trường hợp phân ñoạn từ trong 10.800 cặp
câu huấn luyện chắc chắn sẽ nhỏ hơn tổng số từ ở
trường hợp chưa phân ñoạn từ. ðiều này dẫn ñến số
lượng cặp gióng hàng từ trong ngữ liệu song ngữ ở
trường hợp phân ñoạn từ sẽ ít hơn trường hợp chưa
phân ñoạn từ. Nói cách khác, nếu ñứng ở khái niệm
“từ” thì ngữ liệu huấn luyện chưa có nhưng các
“hình vị” tạo nên “từ” ñó thì lại có trong ngữ liệu
huấn luyện. ðiển hình như hai trường hợp sau trong
600 câu thử nghiệm (Bảng 4).
Bảng 4. Trường hợp dịch chưa phân ñoạn từ cho kết quả tốt hơn dịch phân ñoạn từ
STT Câu tiếng Hoa Kết quả dịch chưa phân ñoạn từ Kết quả dịch ñã phân ñoạn từ
1 气车在外边,我们送你到酒店
tiết xe ở bên ngoài , chúng tôi ñưa
ông ñến khách sạn
气车 ở bên ngoài , chúng tôi ñưa
ông ñến khách sạn
2 我走进病房看他 tôi ñi vào phòng bệnh thăm anh ta tôi 走进 phòng bệnh thăm anh ta
Ở câu số 1, từ 气车 (nghĩa ñúng: “xe bus”) bao
gồm hai hình vị 气 và 车 (ñều tồn tại trong ngữ liệu
huấn luyện chưa phân ñoạn từ), trong ñó 气 có
nghĩa là “tiết” (trong 天气: “thời tiết”) có xác suất
cao nhất, 车 có nghĩa phổ biến nhất là “xe’. Do ñó,
ở trường hợp chưa phân ñoạn từ thì 气车 dịch là
“tiết xe”. Sau khi phân ñoạn từ, từ 气车 ñược xem
là một từ ñộc lập, do trong kho ngữ liệu huấn luyện
chưa xuất hiện từ này nên hệ thống không dịch
ñược từ 气车. Rốt cuộc, dù dịch sai từ 气 nhưng
lại dịch ñúng từ 车, kết quả dịch chưa phân ñoạn từ
của từ 气车 vẫn tốt hơn so với trường hợp phân
ñoạn từ (không dịch ñược, xem 气车 là từ mới).
Tương tự cho câu số 2, từ 走进 (“ñi vào”), ở trường
hợp chưa phân ñoạn từ thì hệ dịch cho kết quả chính
xác (走: ñi 进: vào); trong khi hệ dịch ñã phân ñoạn
từ thì xem 走进 là từ mới.
Chúng tôi vừa trình bày các ưu và nhược ñiểm
của hai trường hợp phân ñoạn từ và không phân
ñoạn từ trong dịch thống kê Hoa-Việt trên hai bộ
ngữ liệu với số câu tăng dần (8.000 và 12.000 cặp
câu). Ở cả hai trường hợp ñều có những ưu và
khuyết ñiểm riêng. Các hướng cải tiến mà bài báo
ñề xuất tiếp theo sẽ dựa vào việc giảm bớt các
nhược ñiểm và tăng cường ưu ñiểm của từng trường
hợp. Như phần trên ñã ñề cập, chất lượng của hệ
dịch sẽ tỉ lệ thuận với số lượng câu trong kho ngữ
liệu dù là dịch ñã phân ñoạn từ hay chưa phân ñoạn
từ. Do ñó, bài toán bổ sung số câu cho kho ngữ liệu
là cần thiết và quan trọng nhằm làm phong phú “từ
ñiển” gióng hàng của hệ thống. Hai vấn ñề cần quan
tâm cho bài toán bổ sung ngữ liệu ñó là: số câu
trong kho ngữ liệu như thế nào là ñủ và nguồn ngữ
liệu sẽ ñược thu thập từ ñâu. Rất khó ñể xác ñịnh
ngữ liệu bao nhiêu là ñủ, bao nhiêu ngữ liệu ñể hệ
thống có khả năng nhận diện tất cả các từ khi giải
mã. Chúng ta chỉ mong muốn là kho ngữ lớn và
sạch. Bên cạnh ñó, vấn ñề thu thập ngữ liệu lớn cho
hệ dịch thống kê cũng là một thử thách. Bài toán thu
thập ngữ liệu tự ñộng từ các web song ngữ ñược ñặt
ra. Tuy nhiên, chất lượng ngữ liệu ñược lấy từ các
web song ngữ thường thấp, cần có sự can thiệp tri
thức ñể tăng chất lượng cho kho ngữ liệu này.
Một ưu ñiểm khác của dịch phân ñoạn từ so với
dịch chưa phân ñoạn từ là dịch ñúng nghĩa hơn. Một
vấn ñề cần quan tâm khi chúng ta phân ñoạn từ cho
ngữ liệu ñó là: các gióng hàng giữa các hình vị có
Science & Technology Development, Vol 18, No.T2- 2015
Trang 76
nghĩa trong từ sẽ bị mất ñi, thí dụ: gióng hàng
“washing machine /洗衣机” sẽ không ñóng góp gì
cho cặp washing/洗衣 và machine/机. ðây cũng là
lý do giải thích tại sao hệ dịch phân ñoạn từ cho ra
kết quả với nhiều từ không dịch ñược (từ mới). Giải
quyết vấn ñề này, nhóm tác giả ở công trình [6] ñã
phân rã từ tiếng Hoa thành các hình vị nhỏ hơn. Tuy
nhiên, cặp ngôn ngữ mà nhóm tác giả này áp dụng
là Anh-Hoa, nơi ñó ranh giới từ ở tiếng Anh (mặc
nhiên là khoảng trắng) là cơ sở ñể nhóm tác giả
phân rã các từ tiếng Hoa. Cặp ngôn ngữ của chúng
tôi là Hoa-Việt, khoảng trắng không cho biết ranh
giới từ; do ñó, chúng tôi không thể áp dụng việc
phân rã từ dựa vào ngôn ngữ nguồn (tiếng Anh) như
nhóm tác giả trên.
Chúng tôi ñề nghị phân ñoạn từ cho hệ dịch
Hoa-Việt. ðể tránh trường hợp bỏ mất các gióng
hàng từ giữa các hình vị có nghĩa khi phân ñoạn từ,
chúng tôi sẽ tiến hành phân rã từ thành các hình vị
có nghĩa nhỏ hơn. Một thách thức khi phân rã một
từ thành các hình vị nhỏ hơn là có thể nghĩa của các
hình vị không có liên quan gì ñến nghĩa của từ chứa
nó. Do ñó, theo chúng tôi, chỉ những từ mà các hình
vị tạo ra nó có nghĩa giống hoặc liên quan ñến nó
chúng tôi mới tiến hành phân rã. Thí dụ: với từ 走
进 (ñi vào) gồm hai hình vị 走/ñi và 进/vào; nghĩa
của hai hình vị gộp lại cũng chính là nghĩa của từ;
do ñó, từ này sẽ ñược phân rã thành hai hình vị. Tuy
nhiên, ñối với từ 是的 (ñúng) cũng gồm hình vị 是
/là và 的/của; nghĩa của hai hình vị này không có
liên quan gì ñến từ 是的. Do ñó, từ 是的 sẽ không
ñược phân rã.
Chúng tôi cũng ñề xuất một hướng tiếp cận mới
nhằm dịch lại các từ mới (unknown word: UKW)
tiếng Hoa cho trường hợp dịch phân ñoạn từ. Bản
thân chữ Trung Quốc ñược phát âm khác nhau,
ngay tại Trung Quốc, tuỳ từng vùng mà có nhiều
giọng hoặc âm ñọc khác nhau, như tiếng Quảng
ðông, tiếng Phúc Kiến, tiếng Triều Châu, tiếng Bắc
Kinh, ... Các nước lân cận như Triều Tiên có cách
ñọc riêng của người Triều Tiên, gọi là Hán-Triều (
漢朝); người Nhật có cách ñọc riêng của người
Nhật, gọi là Hán-Hòa (漢和); và người Việt có cách
ñọc của mình gọi là Hán-Việt (漢越). Như vậy, âm
Hán Việt là cách ñọc tiếng Hán (tiếng Hoa) của
người Việt. Thông thường, một ký tự tiếng Hoa sẽ
có một âm Hán Việt và một nghĩa Thuần Việt, một
số trường hợp âm Hán Việt cũng chính là nghĩa
Thuần Việt. Thí dụ: ký tự 水 có âm Hán Việt là
“thủy”, Thuần Việt là “nước”; ký tự 东 có âm Hán
Việt là “ñông” (trong “ñông tây nam bắc”), Thuần
Việt cũng có nghĩa là “ñông”. Một ñiểm ñặc biệt
nữa giữa tiếng Hoa và Tiếng Việt ñó là các tên riêng
thuộc tên người, tên tổ chức và ñịa danh của tiếng
Hoa sẽ ñược dịch sang tiếng Việt chính là âm Hán
Việt của chúng. Quan hệ ñặc biệt về nghĩa giữa
tiếng Hoa và tiếng Việt là cơ sở quan trọng cho
phương pháp dịch lại từ mới của chúng tôi trong
tương lai.
KẾT LUẬN
Trong bài báo này, chúng tôi ñã tiến hành khảo
sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả
dịch thống kê Hoa-Việt. Với kho ngữ liệu sạch, dữ
liệu phân bố ñồng ñều thì khi tăng số câutrong kho
ngữ liệu chất lượng dịch sẽ tăng theo. Hiệu suất
dịch máy cũng sẽ tăng ñáng kể nếu như ngữ liệu
ñược phân ñoạn từ. Bài báo cũng ñã trình bày lại
một số cải tiến phân ñoạn từ nhằm tăng hiệu suất
dịch thống kê Hoa-Anh-Hoa. Hai cải tiến ñáng kể
ñó là phân ñoạn từ dựa vào song ngữ và phân rã từ
thành các hình vị có nghĩa nhỏ hơn. Dựa vào kết
quả thực nghiệm cho hệ dịch thống kê Hoa-Việt,
chúng tôi cũng ñã ñề xuất một số phương pháp cải
tiến phân ñoạn từ cũng như dịch lại từ mới nhằm
tăng chất lượng dịch máy thống kê Hoa-Việt.
Trong nghiên cứu tiếp theo, chúng tôi sẽ tiến
hành hiện thực hóa phương pháp cải tiến của mình
cho hệ dịch Hoa-Việt, giúp cho chất lượng dịch của
hệ thống dịch Hoa-Việt ngày càng tốt hơn.
LỜI CẢM ƠN: Bài báo này ñược thực hiện dưới
sự tài trợ của quỹ NAFOSTED và Trung tâm ngữ
liệu ña ngữ Kim Từ ðiển.
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015
Trang 77
Surveying word boundary factor in
Chinese - Vietnamese statistical
machine translation
• Tran Thanh Phuoc
Ton Duc Thang University
• Dinh Dien
University of Science,VNU- HCM
ABSTRACT
In isolating languages such as Chinese
and Vietnamese, words are not separated by
spaces, a word can include one or more
spelling words. Segmenting word or not
before training and translating process is a
problem that need to be considered. In this
paper, we will survey the effect of word
boundary factor in the translation result of
Chinese-Vietnamese statistical machine
translation (SMT). The experimental result of
this paper will be the basis for word
segmentation improvement in future
research which increase machine translation
performance. We surveyed on two
experiments: word segmentation (WS) and
word un-segmentation (WUS) on the corpus
of 8,000 and 12,000 sentence pairs. Based
on the experimental results, we found that
both of WS corpus and WUS corpus have
their own advantages and defects. We
propose integrating the advantages of these
two methods in SMT.
Keywords: Statistical machine translation, word boundary, word segmentation, morpheme,
spelling word.
TÀI LIỆU THAM KHẢO
[1]. P.C. Chang, M. Galley, C.D. Manning,
Optimizing Chinese word segmentation for
machine translation performance, in ACL
Proceeding of the third workshop on
statistical machine, translation, 224-232
(2008).
[2]. T.P. Tran, D. Dinh, Identifying and reodering
prepositions in Chinese-Vietnamese machine
translation, First International Workshop on
Vietnamese language and speech processing
(VLSP), In conjunction with 9th IEEE-RIVF
conference on Computing and
Communication Technologies (RIVF 2012),
41-46 (2012).
[3]. T.T. Phước, ð. ðiền, Xử lý câu hỏi chính
phản trong dịch thống kê Hoa-Việt, CS2602,
Chuyên san Các công trình nghiên cứu, phát
triển và ứng dụng công nghệ thông tin và
truyền thông, 27, Bộ Thông tin và Truyền
thông, 71-78 (2012).
[4]. R. Zhang, K. Yasuda, E. Sumita, Improved
statistical machine translation by multiple
Chinese word segmentation, ACL 2008,
Third workshop on SMT, 216-223 (2008).
[5]. Y. Ma, A. Way, Bilingually motivated word
segmentation for SMT, In: EACL 2009
Workshop on Computational Approaches to
Semitic Languages, 31 March, Athens,
Greece, 549-557 (2009).
[6]. M.H. Bai, K.J. Chen, J.S. Chang, Improving
word alignment by adjusting Chinese word
segmentation, in Proceedings of the Third
International Joint Conference on Natural
Language Processing: I, 2008, India, 249-256
(2008).
[7]. C.T. Nguyen, T.K. Nguyen, X.H. Phan, L.M.
Nguyen, Q.T. Ha, Vietnamese word
Science & Technology Development, Vol 18, No.T2- 2015
Trang 78
segmentation with CRFs and SVMs,
Proceedings of the 20th Pacific Asia
Conference on Language, Information and
Computation (PACLIC20), China, 215-222
(2006).
[8]. D. Dien, V. Thuy, A maximum entropy
approach for Vietnamese word segmentation,
in Research, Innovation and Vision for the
Future, 248-253 (2006).
Các file đính kèm theo tài liệu này:
- 23748_79422_1_pb_1005_2037304.pdf