Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt - Trần Thanh Phước

Chúng tôi ñề nghị phân ñoạn từ cho hệ dịch Hoa-Việt. ðể tránh trường hợp bỏ mất các gióng hàng từ giữa các hình vị có nghĩa khi phân ñoạn từ, chúng tôi sẽ tiến hành phân rã từ thành các hình vị có nghĩa nhỏ hơn. Một thách thức khi phân rã một từ thành các hình vị nhỏ hơn là có thể nghĩa của các hình vị không có liên quan gì ñến nghĩa của từ chứa nó. Do ñó, theo chúng tôi, chỉ những từ mà các hình vị tạo ra nó có nghĩa giống hoặc liên quan ñến nó chúng tôi mới tiến hành phân rã. Thí dụ: với từ 走进 (ñi vào) gồm hai hình vị 走/ñi và 进/vào; nghĩa của hai hình vị gộp lại cũng chính là nghĩa của từ; do ñó, từ này sẽ ñược phân rã thành hai hình vị. Tuy nhiên, ñối với từ 是的 (ñúng) cũng gồm hình vị 是 /là và 的/của; nghĩa của hai hình vị này không có liên quan gì ñến từ 是的. Do ñó, từ 是的 sẽ không ñược phân rã. Chúng tôi cũng ñề xuất một hướng tiếp cận mới nhằm dịch lại các từ mới (unknown word: UKW) tiếng Hoa cho trường hợp dịch phân ñoạn từ. Bản thân chữ Trung Quốc ñược phát âm khác nhau, ngay tại Trung Quốc, tuỳ từng vùng mà có nhiều giọng hoặc âm ñọc khác nhau, như tiếng Quảng ðông, tiếng Phúc Kiến, tiếng Triều Châu, tiếng Bắc Kinh, . Các nước lân cận như Triều Tiên có cách ñọc riêng của người Triều Tiên, gọi là Hán-Triều ( 漢朝); người Nhật có cách ñọc riêng của người Nhật, gọi là Hán-Hòa (漢和); và người Việt có cách ñọc của mình gọi là Hán-Việt (漢越). Như vậy, âm Hán Việt là cách ñọc tiếng Hán (tiếng Hoa) của người Việt. Thông thường, một ký tự tiếng Hoa sẽ có một âm Hán Việt và một nghĩa Thuần Việt, một số trường hợp âm Hán Việt cũng chính là nghĩa Thuần Việt. Thí dụ: ký tự 水 có âm Hán Việt là “thủy”, Thuần Việt là “nước”; ký tự 东 có âm Hán Việt là “ñông” (trong “ñông tây nam bắc”), Thuần Việt cũng có nghĩa là “ñông”. Một ñiểm ñặc biệt nữa giữa tiếng Hoa và Tiếng Việt ñó là các tên riêng thuộc tên người, tên tổ chức và ñịa danh của tiếng Hoa sẽ ñược dịch sang tiếng Việt chính là âm Hán Việt của chúng. Quan hệ ñặc biệt về nghĩa giữa tiếng Hoa và tiếng Việt là cơ sở quan trọng cho phương pháp dịch lại từ mới của chúng tôi trong tương lai. KẾT LUẬN Trong bài báo này, chúng tôi ñã tiến hành khảo sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả dịch thống kê Hoa-Việt. Với kho ngữ liệu sạch, dữ liệu phân bố ñồng ñều thì khi tăng số câutrong kho ngữ liệu chất lượng dịch sẽ tăng theo. Hiệu suất dịch máy cũng sẽ tăng ñáng kể nếu như ngữ liệu ñược phân ñoạn từ. Bài báo cũng ñã trình bày lại một số cải tiến phân ñoạn từ nhằm tăng hiệu suất dịch thống kê Hoa-Anh-Hoa. Hai cải tiến ñáng kể ñó là phân ñoạn từ dựa vào song ngữ và phân rã từ thành các hình vị có nghĩa nhỏ hơn. Dựa vào kết quả thực nghiệm cho hệ dịch thống kê Hoa-Việt, chúng tôi cũng ñã ñề xuất một số phương pháp cải tiến phân ñoạn từ cũng như dịch lại từ mới nhằm tăng chất lượng dịch máy thống kê Hoa-Việt. Trong nghiên cứu tiếp theo, chúng tôi sẽ tiến hành hiện thực hóa phương pháp cải tiến của mình cho hệ dịch Hoa-Việt, giúp cho chất lượng dịch của hệ thống dịch Hoa-Việt ngày càng tốt hơn.

9 trang | Chia sẻ: thucuc2301 | Lượt xem: 889 | Lượt tải: 1Free

Bạn đang xem nội dung tài liệu Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt - Trần Thanh Phước, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Science & Technology Development, Vol 18, No.T2- 2015 Trang 70 Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt • Trần Thanh Phước Trường ðại học Tôn ðức Thắng • ðinh ðiền Trường ðại học Khoa học Tự nhiên, ðHQG-HCM ( Bài nhận ngày 04 tháng 03 năm 2015, nhận ñăng ngày 12 tháng 06 năm 2015) TÓM TẮT Trong các ngôn ngữ ñơn lập như tiếng Hoa và tiếng Việt, các từ không ñược phân biệt với nhau bởi khoảng trắng, một từ có thể bao gồm một hoặc nhiều từ chính tả. Việc có nên phân ñoạn từ hay không trước khi cho qua hệ thống huấn luyện và dịch là vấn ñề cần ñược xem xét. Trong bài báo này, chúng tôi sẽ tiến hành khảo sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả dịch thống kê Hoa-Việt. Kết quả thực nghiệm của bài báo sẽ làm cơ sở cho các hướng nghiên cứu cải tiến phân ñoạn từ tiếp theo nhằm tăng hiệu suất dịch. Chúng tôi ñã khảo sát trên hai trường hợp sau: không phân ñoạn từ và phân ñoạn từ trên kho ngữ liệu 8.000 và 12.000 cặp câu. Dựa trên kết quả thực nghiệm, chúng tôi nhận thấy rằng: ngữ liệu chưa phân ñoạn từ hoặc ñược phân ñoạn từ ñều có những ưu và khuyết ñiểm riêng. Một hướng cải tiến mà bài báo ñề xuất là tích hợp các ưu ñiểm của hai phương pháp này vào hệ thống dịch máy. T khóa: Dịch thống kê, ranh giới từ, phân ñoạn từ, hình vị. GIỚI THIỆU Không giống với các ngôn ngữ phương Tây, ñiển hình là tiếng Anh, các từ trong tiếng Hoa và tiếng Việt không ñược phân biệt bởi khoảng trắng. Một câu tiếng Hoa bao gồm một dãy các từ chính tả, kể cả dấu câu, nằm liên tiếp với nhau và không có khoảng trắng giữa các từ chính tả này. Trong tiếng Việt, các từ chính tả ñược phân cách với nhau bởi một khoảng trắng, các dấu câu nằm liền sau từ chính tả. Do ñó, vấn ñề phân ñoạn từ luôn ñược giải quyết ñầu tiên trong bài toán dịch máy từ tiếng Hoa, Việt sang ngôn ngữ khác (chủ yếu là tiếng Anh). Một từ tiếng Hoa thường bao gồm nhiều hình vị có nghĩa, thường ñược chia thành ba trường hợp. Trường hợp một: nghĩa của các hình vị giống hoặc có liên quan ñến nghĩa của từ chứa các hình vị ñó; trường hợp hai: nghĩa của từng hình vị không liên quan gì ñến nghĩa của từ chứa nó; trường hợp ba: nghĩa của các hình vị trong từ bị ñảo trật tự. Thí dụ như ở Bảng 1. Bảng 1. Nghĩa của hình vị và từ chứa hình vị ở tiếng Hoa Từ Âm Hán Việt Nghĩa Hình vị có nghĩa 教师 Giáo sư Thầy dạy, giáo sư, thầy 教: dạy 师: thầy 花完 Hoa hoàn Chi tiêu, xài hết 花: hoa完: xong 放假 Phóng giả Nghỉ phép 放: thả 假: giả 银行卡 Ngân hàng tạp Thẻ ngân hàng 银行: ngân hàng 卡: thẻ TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015 Trang 71 Từ 教师 bao gồm các hình vị có nghĩa tương ñồng với nghĩa của chúng. Trong khi ñó, các từ 花完, 放假 ñã không còn giữ các nghĩa của các hình vị tạo nên chúng. Trường hợp còn lại, từ 银行卡 nếu không ñảo trật tự thì nghĩa tiếng Việt tương ứng sẽ là “ngân hàng thẻ”, trong khi ñó nghĩa ñúng sẽ là “thẻ ngân hàng”, nghĩa của các hình vị trong từ chứa nó bị ñảo trật tự. Ý nghĩa tương tự cho từ tiếng Việt; ñiển hình như từ “ba hoa” (nghĩa: nói nhiều, phóng ñại quá sự thật) bao gồm hai hình vị: “ba” có nghĩa thông thường là “số 3, người sinh ra mình”, “hoa” trong “bông hoa”; ý nghĩa hai hình vị này không liên quan gì ñến từ chứa chúng. Chính sự thay ñổi về nghĩa, về trật tự của các hình vị khi chúng kết hợp với nhau ñể tạo nên từ ở cả tiếng Hoa và tiếng Việt nên khi dịch từ tiếng Hoa, tiếng Việt sang tiếng Anh hoặc ngược lại thì phân ñoạn từ luôn là công việc ñược thực hiện ñầu tiên (nhằm tạo tương ứng “từ” – “từ”). Nhưng liệu ñối với cặp ngôn ngữ mà cả hai ñều không xác ñịnh ñược ranh giới từ bởi khoảng trắng như tiếng Hoa và Việt thì biện pháp phân ñoạn từ có cho kết quả tốt hơn? Bài báo này chúng tôi sẽ khảo sát sự ảnh hưởng của yếu tố ranh giới từ ñến hiệu suất dịch thống kê Hoa- Việt. Từ cơ sở thực nghiệm, chúng tôi sẽ giới thiệu các phương pháp cải tiến phân ñoạn từ nhằm nâng cao hiệu suất dịch cho cặp ngôn ngữ Hoa-Việt. Bài báo này bao gồm các nội dung sau: Công trình liên quan ñến phân ñoạn từ Hoa-Việt. Các thử nghiệm về phân ñoạn từ, không phân ñoạn từ và các kết quả thực nghiệm tương ứng. Một số thảo luận cũng như các ñề xuất cải tiến phân ñoạn từ. Kết luận và hướng phát triển tiếp theo. CÁC CÔNG TRÌNH LIÊN QUAN ðối với các loại ngôn ngữ mà từ không ñược xác ñịnh bởi khoảng trắng như tiếng Hoa và Việt thì việc phân ñoạn từ luôn ñược thực hiện ñầu tiên trong các bài toán xử lý ngôn ngữ, ñiển hình như: nhận dạng chủ ñề văn bản, dịch máy, Có nhiều phương pháp phân ñoạn từ, chủ yếu tập trung vào hai hướng: hướng dựa vào tri thức từ vựng và hướng dựa vào tri thức ngôn ngữ (phương pháp thống kê dựa vào ngữ liệu lớn). Phương pháp so khớp cực ñại (Maximum Matching) dựa vào từ ñiển là một ñiển hình của phương pháp phân ñoạn từ theo hướng tri thức từ vựng; phương pháp tách từ dựa vào thống kê phổ biến hiện nay cho cả tiếng Hoa và Việt là CRF (Conditional Random Fields) [1]. Với ưu thế về ngữ liệu có sẵn và không ñòi hỏi người nghiên cứu phải hiểu sâu về tri thức ngôn ngữ nên các phương pháp phân ñoạn từ theo hướng thống kê chiếm ưu thế hơn so với các phương pháp dựa vào từ vựng. Phân ñoạn từ nhằm mục ñích làm tăng hiệu suất dịch của dịch máy thống kê (statistic machine translation: SMT) là một trong những hướng nghiên cứu tiên tiến hiện nay. Từ ñược phân ñoạn lúc này không hoàn toàn ñúng với ý nghĩa của từ theo ñịnh nghĩa của các nhà ngôn ngữ, từ ở ñây có thể là từ ngữ dụng lớn hơn ý nghĩa của từ ngôn ngữ hoặc từ chỉ là một hình vị có nghĩa nhỏ hơn từ ngôn ngữ. Ý nghĩa chung cuộc của việc ñiều chỉnh phân ñoạn từ là làm sao trong ngữ liệu huấn luyện các từ ñược bao phủ càng nhiều càng tốt và kết quả gióng hàng càng có nhiều ánh xạ 1-1. ðể làm ñược ñiều này, ñối với tiếng Hoa, theo tác giả Ruiqiang Zhang và các cộng sự [4] thì cần phải tích hợp nhiều phương pháp phân ñoạn từ lại với nhau, bao gồm cả phân ñoạn từ dựa vào từ ñiển và dựa vào thống kê. Một hướng cải tiến khác là phân ñoạn từ dựa vào song ngữ của nhóm tác giả Yanju Ma và Andy Way [5]. Theo các tác giả, việc phân ñoạn từ thông thường chỉ dựa vào ngữ liệu ñơn ngữ mà không có bất kỳ sự quan tâm nào ñến nguồn ngữ liệu song ngữ, việc phân ñoạn từ ở ngôn ngữ nguồn không chắc tương ứng với phân ñoạn từ ở ngôn ngữ ñích, ñiều này dẫn ñến kết quả gióng hàng từ bị sai. Science & Technology Development, Vol 18, No.T2- 2015 Trang 72 Mặt khác, hầu hết các công cụ phân ñoạn từ hiện nay ñều ñược huấn luyện trên một ngữ liệu thuộc một lĩnh vực nào ñó. Việc phân ñoạn từ như vậy sẽ dẫn ñến tính cục bộ về nghĩa của từ và chắc chắn sẽ cho kết quả không tốt khi áp dụng vào nhiều lĩnh vực khác. Phân rã các từ tiếng Hoa thành các hình vị có nghĩa nhỏ hơn cũng là một phương pháp phổ biến hiện nay nhằm tăng hiệu suất dịch (Ming-Hong Bai, , 2008)[6]. Nhóm tác giả ñã sử dụng phương pháp học không giám sát nhằm phân rã các từ thành các hình vị nhỏ hơn với mục ñích là tạo ra càng nhiều ánh xạ 1-1 càng tốt. Tiếng Hoa với các từ ña âm tiết bao gồm nhiều hơn một hình vị có nghĩa và ñược dịch sang nhiều từ tiếng Anh. Thí dụ: từ 教育署 ñược dịch sang tiếng Anh là “Department of Education” (Sở Giáo dục). Từ 署 có nghĩa thông thường là “Ban”, “Khoa”, “Sở” (Department), 教育 có nghĩa là “giáo dục”. Việc phân ñoạn từ như trên sẽ làm giảm tổng số lần ñồng xuất hiện của cặp từ Hoa-Anh ñồng thời tăng cường nhiều hơn gióng hàng n-1. Thí dụ: do 教育署 là một từ nên nó không ñóng góp gì cho cặp 教育/Education và 署/Department. Mặt khác cặp từ “教育署/Education of Department” sẽ tạo ra gióng hàng n-1: 教育署 -> Educattion và教育署-> Department. Do ñó, nhóm tác giả ñã ñề xuất phân rã từ tiếng Hoa thành các hình vị có nghĩa nhỏ hơn. Một trong những ñặc ñiểm chung của các phương pháp cải tiến phân ñoạn từ tiếng Hoa ở trên là việc cải tiến ñược áp dụng cho cặp ngôn ngữ Hoa-Anh hoặc Anh-Hoa. Tiếng Anh với khoảng trắng là dấu hiệu cho biết ranh giới từ, ñây là ñiểm vô cùng quan trọng cho các phương pháp cải tiến. ðiển hình như phương pháp phân rã từ thành các hình vị nhỏ hơn, không phải bất kỳ từ tiếng Hoa nào bao gồm nhiều hình vị có nghĩa cũng ñều ñược phân rã, chỉ có những từ gióng hàng với nhiều từ tiếng Anh mới là ứng viên cần phân rã. Thí dụ: “washing machine/洗衣机” có thể ñược tách thành 洗衣 và 机 tương ứng với “washing” và “machine”, nhưng “heater/暖气机” thì không ñược tách thành 暖气 và 机, vì từ này ñược gióng hàng với một từ tiếng Anh duy nhất “heater”. Cũng giống như tiếng Hoa, phân ñoạn từ tiếng Việt cũng ñược các nhà nghiên cứu quan tâm và cài ñặt thử nghiệm; hướng tiếp cận dựa vào thống kê cũng chiếm ưu thế hơn so với hướng dựa vào từ ñiển. Nhóm tác giả Cam-Tu Nguyen [8] cũng thực hiện phân ñoạn từ tiếng Việt dựa vào CRF (như tiếng Hoa). Trong khi ñó, nhóm VCL của ðinh ðiền [8] thì phân ñoạn từ theo phương pháp SVM và sau này là phân ñoạn từ dựa vào ngữ dụng. Chúng tôi sử dụng phân ñoạn từ tiếng Hoa theo CRF và tiếng Việt theo ngữ dụng của nhóm VCL trong việc phân ñoạn từ tiếng Việt của kho ngữ liệu thử nghiệm. CÁC THỬ NGHIỆM RANH GIỚI TỪ TRONG DỊCH THỐNG KÊ HOA-VIỆT Ngữ liệu thử nghiệm Kho ngữ liệu song ngữ thử nghiệm của chúng tôi bao gồm 12.000 cặp câu ñược chúng tôi tổng hợp từ các sách giáo khoa ñàm thoại tiếng Hoa và các diễn ñàn tiếng Hoa online. Văn bản trong kho ngữ liệu chủ yếu là văn bản giao tiếp phổ thông, chiều dài của các câu tương ñối ngắn, bình quân khoảng 10 từ trong một câu. Chất lượng kho ngữ liệu khá sạch, nội dung ngữ liệu ñồng nhất và trải ñều trong 12.000 câu. Chúng tôi tiến hành thử nghiệm trên hai kho ngữ liệu: 8.000 và 12.000 cặp câu. Trong cả hai kho ngữ liệu, chúng tôi sử dụng 90 % tổng số câu cho huấn luyện (training), 5 % số câu dành cho kiểm tra (testing) và 5 % số câu còn lại dành cho ñiều chỉnh tham số (developing). Ngữ liệu huấn luyện (các câu dành cho huấn luyện và ñiều chỉnh tham số) ñược huấn luyện bằng công cụ Moses với các tham số mặc ñịnh (SMT Baseline). Chúng tôi sử dụng bộ ngữ liệu này ñể thực hiện hai thử nghiệm: ngữ liệu chưa ñược phân ñoạn từ và ngữ liệu ñược phân ñoạn từ. TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015 Trang 73 Thiết lập ngữ liệu và tiến hành thử nghiệm ðối với ngữ liệu chưa phân ñoạn từ, chúng tôi xem các ký tự tiếng Hoa và từ chính tả tiếng Việt như những ñơn vị ñộc lập. Chúng tôi tiến hành chèn một khoảng trắng vào giữa các ký tự tiếng Hoa; ví dụ: “明天我去她家。” (Ngày mai tôi ñi ñến nhà cô ấy.) ->“明天我去她家。 ”. ðối với tiếng Việt, chúng tôi thực hiện chèn khoảng trắng vào giữa các từ chính tả với các dấu câu (. , ? ! : ); ví dụ câu: “Tôi nói tiếng Hoa, bạn có hiểu không?”-> “Tôi nói tiếng Hoa , bạn có hiểu không ?”. Trường hợp ngữ liệu ñược phân ñoạn từ, chúng tôi tiến hành phân ñoạn từ tiếng Hoa bằng công cụ Stanford Chinese Segmenter1 do nhóm tác giả Pi-Chuan Chang, Huihsin Tseng và Galen Andrew thuộc trường ðại học 1 Download tại ñịa chỉ: Stanford thực hiện. ðây là công cụ phân ñoạn từ ñược cài ñặt theo phương pháp CRF (Conditional Random Field), ñược sử dụng phổ biến hiện nay. ðối với tiếng Việt, chúng tôi phân ñoạn từ bằng công cụ của nhóm VCL. Khái niệm từ trong công cụ này là từ theo ngữ dụng, ứng dụng hiệu quả trong dịch máy thống kê. Sau khi thiết lập ngữ liệu thử nghiệm, chúng tôi tiến hành huấn luyện và dịch thống kê bằng công cụ Moses cho cả hai trường hợp phân ñoạn từ và chưa phân ñoạn từ trên ngữ liệu 8.000 và 12.000 cặp câu. ðiểm BLEU cho từng trường hợp như sau: Hình 1. Kết quả thử nghiệm 46.23 49.02 47.7 49.14 44 45 46 47 48 49 50 8000 cặp câu chưa phân ñoạn từ 8000 cặp câu ñã phân ñoạn từ 12000 cặp câu chưa phân ñoạn từ 12000 cặp câu ñã phân ñoạn từ Science & Technology Development, Vol 18, No.T2- 2015 Trang 74 THẢO LUẬN Qua hai thử nghiệm, chúng tôi nhận thấy rằng: khi tăng số câu trong kho ngữ liệu thì chất lượng dịch của cả hai trường hợp tăng theo. Thật vậy, ngữ liệu tăng ñồng nghĩa với việc vốn từ trong “từ ñiển” gióng hàng phong phú hơn, bao quát hơn; hệ thống có khả năng nhận dạng nhiều từ hơn trong quá trình giải mã và cuối cùng hệ thống sẽ cho kết quả dịch tốt hơn. Bên cạnh ñó, chất lượng dịch máy sẽ tăng rõ rệt khi chúng tôi tiến hành phân ñoạn từ cho hai kho ngữ liệu 8.000 và 12.000 cặp câu. Sau khi phân ñoạn từ, hệ dịch cho kết quả với các từ ñược dịch ñúng nghĩa hơn so với trường hợp chưa phân ñoạn từ. Sau ñây là bốn trường hợp ñiển hình trong 600 câu kiểm tra trong bộ dữ liệu thử nghiệm của chúng tôi (Bảng 2 và Bảng 3). Bảng 2. Nghĩa của hình vị và từ chứa chúng STT Từ tiếng Hoa Nghĩa ñúng Câu dịch chưa phân ñoạn từ Câu dịch ñã phân ñoạn từ 1 是的 ðúng (true, yes) là của (is of) ñúng 2 花完 xài hết (spend all) hoa xong (flower end) xài hết 3 假使 giả sử (if) Phép làm cho (holliday mak) giả sử 4 银行卡 thẻ ngân hàng (bank card) Ngân hàng thẻ (card bank) thẻ ngân hàng Bảng 3. Kết quả gióng hàng của hình vị, từ STT Chưa phân ñoạn từ ðã phân ñoạn từ 1 是 -> là (is) 的 -> của (of) 是的 -> ñúng (true, yes) 2 花 -> hoa (flower) 完 -> xong (end) 花完 -> xài hết (spend all) 3 假 -> phép (holliday) 使 -> làm cho (make) 假使 -> giả sử (if) 4 银行 -> ngân hàng (bank) 卡 -> thẻ (card) 银行卡 -> thẻ ngân hàng (bank card) Có hai lý do cho ưu ñiểm này: một là do nghĩa của các hình vị không giống hoặc không liên quan ñến nghĩa của từ chứa chúng (trường hợp 1, 2 và 3); hai là do trật tự của các hình vị trong từ bị ñảo. Hai ñiều này ñã làm giảm chất lượng dịch khi chưa phân ñoạn từ. Ở từ số 1, từ 是/ là, từ 的/ của; trong khi ñó, từ 是的 có nghĩa là “ñúng”. Ý nghĩa này không liên quan gì ñến ý nghĩa “là”, “của” ở các hình vị. Tương tự ở trường hợp 2, từ 花/hoa (trong bông hoa), từ 完/ xong. Kết hợp với nhau, 花完 tạo thành một từ duy nhất có nghĩa là “xài hết”; “hoa xong” không liên quan gì ñến “xài hết”. Ở trường hợp 3, từ 假 ñược gióng hàng là “phép” (放假 ->“nghỉ phép”), từ 使 có nghĩa là “khiến”, “làm cho”. Từ 假使 /“giả sử” (hoặc “nếu như”) khác biệt hoàn toàn với nghĩa của hai hình vị 假,使 (“phép làm cho”). Khác với trường hợp 1, 2 và 3; ở trường hợp 4 nghĩa của các hình vị so với nghĩa của từ chứa các hình vị ñó giống nhau, sự khác biệt ở ñây là trật tự của các hình vị khi ñược dịch sang ngôn ngữ ñích. Hai hình vị 银行/ “ngân hàng” và 卡 /“thẻ” dịch thành “ngân hàng thẻ”; trong khi ñó từ “银行卡” dịch ñúng sẽ là “thẻ ngân hàng”. Ý nghĩa của “ngân hàng thẻ” và “thẻ ngân hàng” gần như nhau, chỉ khác trật tự từ. TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015 Trang 75 Cũng từ kết quả thực nghiệm, chúng tôi nhận thấy rằng: hệ dịch ñã qua phân ñoạn từ mặc dù chất lượng chung cuộc tốt hơn so với chưa phân ñoạn từ nhưng kết quả dịch lại xuất hiện nhiều từ mới hơn (hệ dịch không dịch ñược các từ này). Nguyên nhân chính của trường hợp này là do trong 600 câu thử nghiệm của trường hợp ñã phân ñoạn từ (bộ ngữ liệu 12.000 cặp câu) có nhiều từ mới và hệ thống không dịch ñược các từ này (do các từ mới này không tồn tại trong 10.800 câu huấn luyện). Tổng số từ ở trường hợp phân ñoạn từ trong 10.800 cặp câu huấn luyện chắc chắn sẽ nhỏ hơn tổng số từ ở trường hợp chưa phân ñoạn từ. ðiều này dẫn ñến số lượng cặp gióng hàng từ trong ngữ liệu song ngữ ở trường hợp phân ñoạn từ sẽ ít hơn trường hợp chưa phân ñoạn từ. Nói cách khác, nếu ñứng ở khái niệm “từ” thì ngữ liệu huấn luyện chưa có nhưng các “hình vị” tạo nên “từ” ñó thì lại có trong ngữ liệu huấn luyện. ðiển hình như hai trường hợp sau trong 600 câu thử nghiệm (Bảng 4). Bảng 4. Trường hợp dịch chưa phân ñoạn từ cho kết quả tốt hơn dịch phân ñoạn từ STT Câu tiếng Hoa Kết quả dịch chưa phân ñoạn từ Kết quả dịch ñã phân ñoạn từ 1 气车在外边，我们送你到酒店 tiết xe ở bên ngoài , chúng tôi ñưa ông ñến khách sạn 气车 ở bên ngoài , chúng tôi ñưa ông ñến khách sạn 2 我走进病房看他 tôi ñi vào phòng bệnh thăm anh ta tôi 走进 phòng bệnh thăm anh ta Ở câu số 1, từ 气车 (nghĩa ñúng: “xe bus”) bao gồm hai hình vị 气 và 车 (ñều tồn tại trong ngữ liệu huấn luyện chưa phân ñoạn từ), trong ñó 气 có nghĩa là “tiết” (trong 天气: “thời tiết”) có xác suất cao nhất, 车 có nghĩa phổ biến nhất là “xe’. Do ñó, ở trường hợp chưa phân ñoạn từ thì 气车 dịch là “tiết xe”. Sau khi phân ñoạn từ, từ 气车 ñược xem là một từ ñộc lập, do trong kho ngữ liệu huấn luyện chưa xuất hiện từ này nên hệ thống không dịch ñược từ 气车. Rốt cuộc, dù dịch sai từ 气 nhưng lại dịch ñúng từ 车, kết quả dịch chưa phân ñoạn từ của từ 气车 vẫn tốt hơn so với trường hợp phân ñoạn từ (không dịch ñược, xem 气车 là từ mới). Tương tự cho câu số 2, từ 走进 (“ñi vào”), ở trường hợp chưa phân ñoạn từ thì hệ dịch cho kết quả chính xác (走: ñi 进: vào); trong khi hệ dịch ñã phân ñoạn từ thì xem 走进 là từ mới. Chúng tôi vừa trình bày các ưu và nhược ñiểm của hai trường hợp phân ñoạn từ và không phân ñoạn từ trong dịch thống kê Hoa-Việt trên hai bộ ngữ liệu với số câu tăng dần (8.000 và 12.000 cặp câu). Ở cả hai trường hợp ñều có những ưu và khuyết ñiểm riêng. Các hướng cải tiến mà bài báo ñề xuất tiếp theo sẽ dựa vào việc giảm bớt các nhược ñiểm và tăng cường ưu ñiểm của từng trường hợp. Như phần trên ñã ñề cập, chất lượng của hệ dịch sẽ tỉ lệ thuận với số lượng câu trong kho ngữ liệu dù là dịch ñã phân ñoạn từ hay chưa phân ñoạn từ. Do ñó, bài toán bổ sung số câu cho kho ngữ liệu là cần thiết và quan trọng nhằm làm phong phú “từ ñiển” gióng hàng của hệ thống. Hai vấn ñề cần quan tâm cho bài toán bổ sung ngữ liệu ñó là: số câu trong kho ngữ liệu như thế nào là ñủ và nguồn ngữ liệu sẽ ñược thu thập từ ñâu. Rất khó ñể xác ñịnh ngữ liệu bao nhiêu là ñủ, bao nhiêu ngữ liệu ñể hệ thống có khả năng nhận diện tất cả các từ khi giải mã. Chúng ta chỉ mong muốn là kho ngữ lớn và sạch. Bên cạnh ñó, vấn ñề thu thập ngữ liệu lớn cho hệ dịch thống kê cũng là một thử thách. Bài toán thu thập ngữ liệu tự ñộng từ các web song ngữ ñược ñặt ra. Tuy nhiên, chất lượng ngữ liệu ñược lấy từ các web song ngữ thường thấp, cần có sự can thiệp tri thức ñể tăng chất lượng cho kho ngữ liệu này. Một ưu ñiểm khác của dịch phân ñoạn từ so với dịch chưa phân ñoạn từ là dịch ñúng nghĩa hơn. Một vấn ñề cần quan tâm khi chúng ta phân ñoạn từ cho ngữ liệu ñó là: các gióng hàng giữa các hình vị có Science & Technology Development, Vol 18, No.T2- 2015 Trang 76 nghĩa trong từ sẽ bị mất ñi, thí dụ: gióng hàng “washing machine /洗衣机” sẽ không ñóng góp gì cho cặp washing/洗衣 và machine/机. ðây cũng là lý do giải thích tại sao hệ dịch phân ñoạn từ cho ra kết quả với nhiều từ không dịch ñược (từ mới). Giải quyết vấn ñề này, nhóm tác giả ở công trình [6] ñã phân rã từ tiếng Hoa thành các hình vị nhỏ hơn. Tuy nhiên, cặp ngôn ngữ mà nhóm tác giả này áp dụng là Anh-Hoa, nơi ñó ranh giới từ ở tiếng Anh (mặc nhiên là khoảng trắng) là cơ sở ñể nhóm tác giả phân rã các từ tiếng Hoa. Cặp ngôn ngữ của chúng tôi là Hoa-Việt, khoảng trắng không cho biết ranh giới từ; do ñó, chúng tôi không thể áp dụng việc phân rã từ dựa vào ngôn ngữ nguồn (tiếng Anh) như nhóm tác giả trên. Chúng tôi ñề nghị phân ñoạn từ cho hệ dịch Hoa-Việt. ðể tránh trường hợp bỏ mất các gióng hàng từ giữa các hình vị có nghĩa khi phân ñoạn từ, chúng tôi sẽ tiến hành phân rã từ thành các hình vị có nghĩa nhỏ hơn. Một thách thức khi phân rã một từ thành các hình vị nhỏ hơn là có thể nghĩa của các hình vị không có liên quan gì ñến nghĩa của từ chứa nó. Do ñó, theo chúng tôi, chỉ những từ mà các hình vị tạo ra nó có nghĩa giống hoặc liên quan ñến nó chúng tôi mới tiến hành phân rã. Thí dụ: với từ 走进 (ñi vào) gồm hai hình vị 走/ñi và 进/vào; nghĩa của hai hình vị gộp lại cũng chính là nghĩa của từ; do ñó, từ này sẽ ñược phân rã thành hai hình vị. Tuy nhiên, ñối với từ 是的 (ñúng) cũng gồm hình vị 是 /là và 的/của; nghĩa của hai hình vị này không có liên quan gì ñến từ 是的. Do ñó, từ 是的 sẽ không ñược phân rã. Chúng tôi cũng ñề xuất một hướng tiếp cận mới nhằm dịch lại các từ mới (unknown word: UKW) tiếng Hoa cho trường hợp dịch phân ñoạn từ. Bản thân chữ Trung Quốc ñược phát âm khác nhau, ngay tại Trung Quốc, tuỳ từng vùng mà có nhiều giọng hoặc âm ñọc khác nhau, như tiếng Quảng ðông, tiếng Phúc Kiến, tiếng Triều Châu, tiếng Bắc Kinh, ... Các nước lân cận như Triều Tiên có cách ñọc riêng của người Triều Tiên, gọi là Hán-Triều ( 漢朝); người Nhật có cách ñọc riêng của người Nhật, gọi là Hán-Hòa (漢和); và người Việt có cách ñọc của mình gọi là Hán-Việt (漢越). Như vậy, âm Hán Việt là cách ñọc tiếng Hán (tiếng Hoa) của người Việt. Thông thường, một ký tự tiếng Hoa sẽ có một âm Hán Việt và một nghĩa Thuần Việt, một số trường hợp âm Hán Việt cũng chính là nghĩa Thuần Việt. Thí dụ: ký tự 水 có âm Hán Việt là “thủy”, Thuần Việt là “nước”; ký tự 东 có âm Hán Việt là “ñông” (trong “ñông tây nam bắc”), Thuần Việt cũng có nghĩa là “ñông”. Một ñiểm ñặc biệt nữa giữa tiếng Hoa và Tiếng Việt ñó là các tên riêng thuộc tên người, tên tổ chức và ñịa danh của tiếng Hoa sẽ ñược dịch sang tiếng Việt chính là âm Hán Việt của chúng. Quan hệ ñặc biệt về nghĩa giữa tiếng Hoa và tiếng Việt là cơ sở quan trọng cho phương pháp dịch lại từ mới của chúng tôi trong tương lai. KẾT LUẬN Trong bài báo này, chúng tôi ñã tiến hành khảo sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả dịch thống kê Hoa-Việt. Với kho ngữ liệu sạch, dữ liệu phân bố ñồng ñều thì khi tăng số câutrong kho ngữ liệu chất lượng dịch sẽ tăng theo. Hiệu suất dịch máy cũng sẽ tăng ñáng kể nếu như ngữ liệu ñược phân ñoạn từ. Bài báo cũng ñã trình bày lại một số cải tiến phân ñoạn từ nhằm tăng hiệu suất dịch thống kê Hoa-Anh-Hoa. Hai cải tiến ñáng kể ñó là phân ñoạn từ dựa vào song ngữ và phân rã từ thành các hình vị có nghĩa nhỏ hơn. Dựa vào kết quả thực nghiệm cho hệ dịch thống kê Hoa-Việt, chúng tôi cũng ñã ñề xuất một số phương pháp cải tiến phân ñoạn từ cũng như dịch lại từ mới nhằm tăng chất lượng dịch máy thống kê Hoa-Việt. Trong nghiên cứu tiếp theo, chúng tôi sẽ tiến hành hiện thực hóa phương pháp cải tiến của mình cho hệ dịch Hoa-Việt, giúp cho chất lượng dịch của hệ thống dịch Hoa-Việt ngày càng tốt hơn. LỜI CẢM ƠN: Bài báo này ñược thực hiện dưới sự tài trợ của quỹ NAFOSTED và Trung tâm ngữ liệu ña ngữ Kim Từ ðiển. TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 18, SOÁ T2 - 2015 Trang 77 Surveying word boundary factor in Chinese - Vietnamese statistical machine translation • Tran Thanh Phuoc Ton Duc Thang University • Dinh Dien University of Science,VNU- HCM ABSTRACT In isolating languages such as Chinese and Vietnamese, words are not separated by spaces, a word can include one or more spelling words. Segmenting word or not before training and translating process is a problem that need to be considered. In this paper, we will survey the effect of word boundary factor in the translation result of Chinese-Vietnamese statistical machine translation (SMT). The experimental result of this paper will be the basis for word segmentation improvement in future research which increase machine translation performance. We surveyed on two experiments: word segmentation (WS) and word un-segmentation (WUS) on the corpus of 8,000 and 12,000 sentence pairs. Based on the experimental results, we found that both of WS corpus and WUS corpus have their own advantages and defects. We propose integrating the advantages of these two methods in SMT. Keywords: Statistical machine translation, word boundary, word segmentation, morpheme, spelling word. TÀI LIỆU THAM KHẢO [1]. P.C. Chang, M. Galley, C.D. Manning, Optimizing Chinese word segmentation for machine translation performance, in ACL Proceeding of the third workshop on statistical machine, translation, 224-232 (2008). [2]. T.P. Tran, D. Dinh, Identifying and reodering prepositions in Chinese-Vietnamese machine translation, First International Workshop on Vietnamese language and speech processing (VLSP), In conjunction with 9th IEEE-RIVF conference on Computing and Communication Technologies (RIVF 2012), 41-46 (2012). [3]. T.T. Phước, ð. ðiền, Xử lý câu hỏi chính phản trong dịch thống kê Hoa-Việt, CS2602, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông, 27, Bộ Thông tin và Truyền thông, 71-78 (2012). [4]. R. Zhang, K. Yasuda, E. Sumita, Improved statistical machine translation by multiple Chinese word segmentation, ACL 2008, Third workshop on SMT, 216-223 (2008). [5]. Y. Ma, A. Way, Bilingually motivated word segmentation for SMT, In: EACL 2009 Workshop on Computational Approaches to Semitic Languages, 31 March, Athens, Greece, 549-557 (2009). [6]. M.H. Bai, K.J. Chen, J.S. Chang, Improving word alignment by adjusting Chinese word segmentation, in Proceedings of the Third International Joint Conference on Natural Language Processing: I, 2008, India, 249-256 (2008). [7]. C.T. Nguyen, T.K. Nguyen, X.H. Phan, L.M. Nguyen, Q.T. Ha, Vietnamese word Science & Technology Development, Vol 18, No.T2- 2015 Trang 78 segmentation with CRFs and SVMs, Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), China, 215-222 (2006). [8]. D. Dien, V. Thuy, A maximum entropy approach for Vietnamese word segmentation, in Research, Innovation and Vision for the Future, 248-253 (2006).

Các file đính kèm theo tài liệu này:

23748_79422_1_pb_1005_2037304.pdf