In this paper, we present a reordering model based on Maximum Entropy with local and non-local
features. This model is extended from a hierarchical reordering model with PBSMT [2], which
integrates rich syntactic information directly in decoder as local and non-local features of
Maximum Entropy model. The advantages of this model are (1) maintaining the strength of phrase
based approach with a hierarchical reordering model, (2) many kinds of rich linguistic information
integrated in PBSMT as local and non-local features of MaxEntropy model. The experiment
results with English-Vietnamese pair showed that our approach achieves significant improvements
over the system which uses a lexical hierarchical reordering model [2].
7 trang |
Chia sẻ: yendt2356 | Lượt xem: 332 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
107
MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ
VÀO HỆ DỊCH MÁY THỐNG KÊ
Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3
1Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội
2Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
3Trường Đại học Dân lập Hải Phòng
TÓM TẮT
Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất
hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các
từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,).
Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo
trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình
Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể
tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.
Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa
vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách
tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].
Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.
ĐẶT VẤN ĐỀ*
Những năm gần đây, sự bùng nổ của cách tiếp
cận dịch máy thống kê dựa vào cụm đã tạo ra
các sản phẩm thương mại được sử dụng rộng
rãi trên thế giới (hệ dịch của google,
microsoft, ) [14][15]. Một trong những vấn
đề quan trọng của dịch máy thống kê dựa vào
cụm liên quan đến việc là làm thế nào để sinh
ra thứ tự các từ (cụm) chính xác trong ngôn
ngữ đích.
Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch
Anh-Việt
Để giải quyết vấn đề trên, gần đây, trong
[4][5], mô hình đảo trật tự từ vựng (LRMs) đã
phát triển để dự đoán hướng của cặp cụm dựa
vào cụm đích liền kề. Những mô hình này
phân biệt ba hướng của cặp cụm hiện tại theo
*
Tel: 0925009989
cụm đích phía trước: (1) monotone (M) – cụm
nguồn phía trước là liền kề trước cụm nguồn
hiện tại, (2) swap (S) – cụm nguồn phía trước
là liền kề sau cụm nguồn hiện tại và (3)
discontinuous (D) – không phải là S và M.
Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình
hiệu quả trong việc swap cụm tính từ “nice
new” và cụm “house” và cụm “a” là
monotone với cụm “This is”. Những mô hình
đảo trật tự từ vựng này cho chất lượng tốt hơn
so với MHTKC. Tuy nhiên những mô hình
này giải quyết đảo trật tự từ của các cụm cạnh
nhau, chúng thường thất bại khi cụm từ mà vị
trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),
hướng của cụm “Tom’s” nên được swap với
phần còn lại của cụm danh từ, tuy nhiên LRM
đoán hướng là discontinuous (D).
Galley and Manning [2] đã mở rộng mô hình
LRMs bằng cách đề xuất mô hình đảo cụm
phân cấp (HRM). Mô hình này dựa vào cấu
trúc phân cấp và có thể giải quyết được
trường hợp đảo vị trí của các cụm xa nhau. Ví
dụ trong hình 1(2) mô hình của họ có thể giải
quyết được cụm liền kề “two” và “blue
books” như là một cụm và sự thay thế của
“Tom’s” theo cụm này được giải quyết như là
swap(S). Tuy nhiên, mô hình của họ cũng có
vài nhược điểm như sau:
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
108
• Mô hình này ước lượng xác suất dựa vào
cách tiếp cận quan hệ tần suất, mà ở đây sẽ
chụi ảnh hưởng của vấn đề dữ liệu thưa. Một
trong những lý do là hầu hết các ví dụ về cụm
chỉ xuất hiện 1 lần trong dữ liệu huấn luyện
(96.5% ví dụ về cụm xuất hiện 1 lần trong
kho dữ liệu “General”).
• Mô hình này không sử dụng bất cứ thông tin
về ngôn ngữ. Điều này làm thiếu thông tin
ngữ cảnh trong việc dự đoán hướng và ước
lượng xác suất của cặp cụm.
Chúng tôi tập trung vào nghiên cứu cải tiến
mô hình đảo trật tự từ vựng. Chúng tôi mở
rộng mô hình đảo trật tự cụm có phân cấp [2]
sử dụng mô hình Maximum Entropy (ME) để
đoán hướng và ước lượng xác suất . Với mô
hình này, chúng ta có thể tích hợp thông tin
giàu trí thức ngôn ngữ vào như các thuộc tính
địa phương cũng như là toàn cục. Hơn nữa,
xác suất được ước lượng bằng mô hình ME sẽ
chính xác và mịn hơn so với ước lượng dựa
vào cách tiếp cần tần suất tương đối. Kết quả
thử nghiệm với cặp ngôn ngữ Anh-Việt cho
thấy cách tiếp cận của chúng tôi tốt hơn so
với cách tiếp cận sử dụng mô hình từ vựng
phân cấp [2].
MỘT SỐ NGHIÊN CỨU LIÊN QUAN
Quá trình giải mã trong MHTKC xây dựng câu
đích từ trái qua phải. Từ giả thuyết hiện tại,
điều quan trọng là phải xác định cụm nguồn
nào cần được dịch. Một vài nhà nghiên cứu
[11], [4] đã đề xuất mô hình khá mạnh được
gọi là mô hình đảo trật tự từ vựng cho việc dự
đoán hướng của cụm nguồn như mô tả ở phần
trên. LRMs học hướng địa phương (monotone-
cùng hướng, swap- khác hướng, discontinue -
không gần nhau) với xác suất của mỗi cặp cụm
song ngữ từ dữ liệu huấn luyện.
[12][13] ứng dụng mô hình Maximum
Entropy cho đảo trật tự cụm. Họ sử dụng ME
ước lượng xác suất đảo cụm. Tuy nhiên họ sử
dụng các đặc trưng đơn giản và áp dụng vào
các mô hình khác của dịch máy.
Galley and Manning [2] đã mở rộng mô hình
LRMs bằng cách đề xuất mô hình đảo cụm
phân cấp (HRM). Mô hình này dựa vào cấu
trúc phân cấp và có thể giải quyết được
trường hợp đảo vị trí của các cụm xa nhau.
Tuy nhiên mô hình của họ cũng một số nhược
điểm như đã nêu ở phần trên.
MÔ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG
Để cải tiến mô hình đảo cụm dựa vào khoảng
cách, [4] [11] đã đề xuất mô hình đảo trật tự
từ vựng. Mô hình sẽ dựa vào quan hệ vị trí
với các cụm liền kề của cụm đích từ đó tính
xác suất của các cặp cụm tương ứng.
Cho một câu nguồn f, mà được dịch thành câu
ngôn ngữ đích e. Hệ thống dịch thống kê dựa
vào cụm tốt nhất hiện nay là mô hình tuyến
tính logarit của xác suất điều kiện Pr(f|e):
'
exp ( , )
P r( | )
exp ( ', )
i ii
i ie
h e ff e
h e f
λ
λ=
∑
∑
(1)
Ở đây ( , )ih e f là hàm đặc trưng bất kỳ trên
cặp câu (e,f). Tham số λ là trọng số của các
hàm đặc trưng ( , )ih e f . Quá trình tìm kiếm
giải mã sẽ tìm câu dịch tốt nhất ê thỏa mãn
công thức sau:
= ∑
i
ii
e
fehê ),(expmaxarg λ (2)
Các đặc trưng bao gồm trong mô hình đảo trật
tự từ vựng đươc tham số hóa như sau: cho
trước câu nguồn f, dãy các cụm ngôn ngữ
đích 1( ,......., )ne e e= là các giả thuyết hiện
tại của quá trình giải mã và gióng hàng cụm
1( ,...., )na a a= xác định sao cho cụm nguồn
if a tương ứng với cụm dịch của nó là cụm
đích ei. Những mô hình ước lượng xác suất
của dãy các hướng (o = o1, , on ) như sau:
1
P r( | , ) ( | , )
i
n
ii a
i
o e f p o e f
=
= ∏
trong đó oi nhận các giá trị hướng
, ,M S D∆ = . Trong khi tuyển tập các cặp
cụm, có thể phân loại chúng thành 3 hướng
như sau:
• oi = M nếu ai – ai -1 = 1
• oi = S nếu ai – ai -1 = -1
• oi = D nếu (ai – ai -1 ≠ 1 và ai – ai -1 ≠ -1)
Trong từng bước của quá trình giải mã, chúng
tôi dựa vào cách tiếp cận của Moses mà ở đây
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
109
gán cho ba tham số phân biệt (λm, λs, λd ) với
ba hàm đặc trưng tương ứng:
1
log ( | , )
i
n
im i ai
f p o M e f
=
= =∑
1 log ( | , )i
n
is i aif p o S e f== =∑
1 log ( | , )i
n
iid aif p o D e f== =∑
Để tích hợp ( | , )
ii i a
p o e f vào công thức
(1) trong quá trình giải mã, chúng ta cần tính
những giá trị xác suất này. Cách đơn giản để
tính là ta dựa vào tần xuất xuất hiện như sau:
0
,( , )( | , ) ( , , )
i
i
i
ii a
ii a
i a
C o u n t o e f
p o e f
C o u n t o e f= ∑
trong đó Count(x) là số lần xuất hiện của x
trong dữ liệu huấn luyện.
Chúng tôi tính ( | , )
ii i a
p o e f dựa vào gióng
hàng cụm trước ai-1 của ai. Chúng ta giả sử ai
có m gióng hàng cụm trước. Ta có:
11
11 0
( , , , )
( , , , )
( | , ) i
i
m k
i iak
m k
i iak
i
i
ii a
Count o f a
Count o e f a
e
p o e f −=
−
=
=
∑
∑ ∑
Tuy nhiên, cách tính như trên sẽ gặp một số
vấn đề như là dữ liệu thưa vì vậy cách hợp lý
là ta sử dụng mô hình Maximum Entropy để
tích hợp đặc trưng và tính xác suất như sau:
0
( , ))
( , ))
exp( ,
( | , )
exp( ,
j j ij
j j ij
i
i
i
i a
ii a
i a
h o
h o
e f
p o e f
e f
θ
θ
=
∑
∑∑
TÍCH HỢP MÔ HÌNH ĐẢO TRẬT TỰ TỪ
VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA
VÀO CỤM SỬ DỤNG MÔ HÌNH
MAXIMUM ENTROPY
Mô hình
Trong phần này chúng tập trung sử dụng
thông tin ngữ cảnh để giúp HRM tính xác
suất và dự đoán hướng của cụm. Chúng tôi
xem hướng của cụm như là bài toán phân lớp:
Hướng của cụm (M, S, D) là nhãn. Vì vậy
trong quá trình giải mã, cách hiệu quả để giải
quyết bài toán phân lớp là cách tiếp cận dựa
vào Maximum Entropy:
0
( , ))
( , ))
exp( ,
( | , )
exp( ,
j j ij
j j ij
i
i
i
i a
ii a
i a
h o
h o
e f
p o e f
e f
θ
θ
=
∑
∑∑
Định nghĩa các đặc trưng
1) Từ chính của cụm (HW). Ví dụ cụm
“social sciences”, HW là “sciences”
2) Một phần của chức năng ngữ pháp (POS)
của từ chính (TG). Ví dụ cụm “social
sciences”, TG là NNS.
3) Nhãn cú pháp của cụm (SL). Ví dụ với
cụm “social sciences”, SL là NP
4) Đặc trưng nút mẹ (Parent Features)
Nút mẹ của ST trong cây phân tích của câu
nguồn. Với cùng cây con của câu nguồn có
nút mẹ khác nhau trong ví dụ huấn luyện. Và
các đặc trưng này có thể cung cấp thông tin
để phân biệt giữa các cây con của câu nguồn.
Hình 2a biểu diễn nút mẹ của cây con ST
(“social sciences”) là nút VP trong hình thoi.
5) Đặc trưng nút anh em (Sibling Features)
Nút anh em của nút gốc ST (“social
sciences”). Đặc trưng này xem xét nút anh em
(nút VBD trong hình thoi) mà cùng nút mẹ
(VP). Được biểu diễn ở hình 2b.
Hình 2. Minh họa về một số đặc trưng
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
110
Trong quá trình trích trọn đặc trưng, chúng ta
phải gán nhãn cho các cặp cụm mà được cho
bởi các cụm nguồn và cây phân tích của nó.
Sự thực hiện gán nhãn cụm như sau:
• Nếu cây con (subtree) ST phủ chính xác
cụm p thì chúng ta xác định (HW, TG, SL,
PF, SBF) từ cây con trên.
• Nếu cây con mà không phủ toàn bộ cụm p
(cụm p không là thành phần ngữ pháp) thì ta
chọn cây con nhỏ nhất SST mà chứa p. Ta
xác định (HW, TG, SL, PF, SBF) từ cây con
SST cho cụm p (nếu HW ∉ p, chúng ta chọn
từ đầu tiên của cụm p làm HW).
Chúng tôi tính ( | , )
ii i a
p o e f dựa vào gióng
hàng cụm trước ai-1 của ai. Với mỗi ( , )ii ae f
chung ta có m ví dụ của cặp cụm
1( , , , )i
k
i i iae f a a− (k = 1, .., m). Mỗi ví dụ
của cặp cụm, chúng ta trích trọn đặc trưng
dựa vào cây con ST của if a và 1kiaf − .
Chúng tôi sử dụng 2 mẫu của đặc trưng là
từng đặc trưng và kết hợp các đặc trưng.
Huấn luyện
Đầu tiên mỗi cặp cụm, ta trích trọn ví dụ từ
mỗi cặp cụm. Thứ hai, chúng ta tính toán
( | , )
ii i a
p o e f sử dụng mô hình Maximum
Entropy. Tất cả các ví dụ của cặp cụm trong
mô hình này được trích trọn theo thuật toán
trích cụm [10] với độ dài của cụm là 8.
Chúng tôi trích trọn đặc trưng như mô tả như
ở trên từ các ví dụ của các cặp cụm. Sau đó
chúng tôi sử dụng công cụ mã nguồn mở
Maximum Entropy để huấn luyện mô hình
Maximum Entropy cho mô hình đảo trật tự.
Chúng tôi thiết lập số vòng lặp là 100 và tham
số ưu tiên Gaussian là 1.
Quá trình giải mã
Trong quá trình giải mã, chúng ta cần tìm
theo ê công thức (2). Chúng tôi phát triển
công cụ giải mã cho dịch thống kê dựa vào
cụm dưa vào công cụ giải mã Pharaoh [3]. Để
tích hợp mô hình HRM vào quá trình giải mã,
chúng tôi tính điểm đảo trật tự cụm với mô
hình HRM (xác định ( | , )
ii i a
p o e f ).
Để tính toán những xác suất này, mô hình
phải xác định các khối liên tiếp M hoặc S mà
có thể kết hợp với nhau thành khối phân cấp.
Chúng tôi đã sử dụng thuật toán như mô tả
trong [2] để tính các xác suất trên.
Hình 3. Cụm phân cấp h1 và h2 biểu diễn “may
gio” and “khong” có hướng Swap (S). Trong khi
h3 biểu diễn “?” có hướng là Monotone (M)
Chúng tôi sử dụng một thể hiện của thuật toán
phân tích shift-reduce và dựa vào ngăn xếp
(Stk) chứa chuỗi xâu nguồn mà đã được dịch.
Mỗi lần, quá trình giải mã sẽ thêm khối mới
vào giả thuyết dịch hiện thời, nó sẽ chuyển
khối ngôn ngữ nguồn vào Stk, sau đó nó lặp
đi lặp lại việc kết hợp hai phần tử trên đỉnh
của ngăn xếp Stk nếu chúng là liên tiếp nhau.
Chúng ta không cần lưu trữ ngôn ngữ đích
bởi vì quá trình giải mã thực hiện từ trái qua
phải và các khối thành công luôn luôn là liên
tiếp nhau theo ngôn ngữ đích.
Với ví dụ: Cho ngôn ngữ nguồn tiếng Anh
“Do you know what time the film begins?” và
câu dịch tương ứng trong tiếng Việt là: “Ban
biet bo_phim bat_dau may gio khong ?”.
Chúng tôi minh họa các bước của quá trình
dịch này. Hình 4 mô tả các bước thực thi của
thuật toán này mà kết quả dịch được thể hiện
trong hình 3 mà ở đây thực hiện quá trình giải
mã của MHTKC và tích hợp mô hình đảo trật
tự cụm phân cấp.
Cột đầu tiên biểu diễn cụm đích mà quá trình
giải mã thực hiện từ trái qua phải. Cột thứ 3
bao gồm các toán tử chuyển- shift (S), kết
hợp- reduce (R) và chấp nhận (A) của ngăn
xếp Stk. Cột ngăn xếp (Stk) và cột cụm nguồn
bao gồm các cận (span) của cụm nguồn (vị trí
từ của cụm nguồn trong câu nguồn) mà ở đây
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
111
là các thông tin cần thiết để xác định hai khối
có liên tiếp nhau hay không. Cột oi biểu diễn
nhãn được dự đoán bởi mô hình phân cấp
bằng cách so sánh khối hiện tại với khối phân
cấp trên đỉnh của Stk.
Cụm
nguồn
Source
spans
Thực
hiện iO
Ngăn xếp
(Stk)
Ban [2-2] S M
Biet [3-3] R M [2-2]
bo_phim [6-7] S D [2-3]
bat_dau [8-8] R M [6-7], [2-3]
may_gio [4-5] R S [6-8], [2-3]
khong [1-1] R,R S [2-8]
? [9] R,A M [1-8]
Hình 4. Thuật toán phân tích shift - reducefor xác
định khối phân cấp với ví dụ trong hình 3
Quá trình giải mã thành công khi đặt vào Stk
các cận của cụm nguồn [2-2], [3-3] mà ở đây
kết hợp 2 cụm này thành [2-3] và chúng
tương ứng có hướng monotone (M). Tiếp theo
là khối [6-7] tương ứng là hướng (D) nên ta
đặt vào Stk. Tiếp theo, quá trình giải mã sẽ
kết hợp khối [8-8] với [6-7] thành [6-8] với
hướng M và sau đó kết hợp [4-5] với [6-8]
thành [4-8] với hướng S. Và cuối cùng khi
quá trình giải mã thực hiện tới cụm “khong”,
tương ứng với cận của cụm nguồn [1-1] mà sẽ
được kết hợp thành công với [2-8] sinh ra
trong ngăn xếp Stk bao gồm [1-8].
Bảng 1. Kho dữ liệu và tập dữ liệu
(đơn vị bằng số câu)
Corpus Sentence pairs
Training
set
Dev
set
Test
set
General 55,341 54,642 200 499
KẾT QUẢ THỬ NGHIỆM
Tập dữ liệu
Chúng tôi thử nghiệm với cặp ngôn ngữ Anh-
Việt. Chúng tôi sử dụng kho dữ liệu song ngữ
Anh-Việt được tập hợp từ báo mới hàng ngày
[10]. Kho dữ liệu này bao gồm 55,341 cặp
câu song ngữ, được chia là 3 tập: huấn luyện,
tập phát triển và tập thử nghiệm. Tập dữ liệu
được mô tả chi tiết trong bảng 1 và thông tin
thống kê được mô tả trong bảng 2.
Điểm BLEU
Chúng tôi thử nghiệm trên PC với bộ vi xử lý
Core 2- Duo 2.4 GZ, bộ nhớ 4 GB. Kết quả
được thể hiện trên bảng 3. Chúng tôi chạy
GIZA++[7] trong kho dữ liệu huấn luyện với
cả hai hướng sử dụng các tham số mặc định,
và ứng dụng luật “grow-diag-final” [6] để tạo
ra gióng hàng từ tương ứng nhiều-nhiều cho
mỗi cặp câu Anh-Việt. Về mô hình ngôn ngữ
chúng tôi sử dụng công cụ mã nguồn mở
SRILM [9]. Về đánh giá chất lượng dịch,
chúng tôi sử dụng độ đo BLEU [8] mà được
tính bởi công cụ Nist phiên bản 11b. Về phân
tích các câu tiếng Anh trong tập huấn luyện,
chúng tôi sử dụng một trong bộ phân tích
thống kê tốt nhất hiện nay [1]. Sau đó chúng
tôi trích trọn đặc trưng của các cặp ví dụ theo
phương pháp của chúng tôi mô tả ở trên.
Kết quả về chất lượng dịch được mô tả trong
bảng 3. Hệ thống baseline là hệ thông dịch
thống kê dựa vào cụm thông thường [3].
Thêm vào đó, chúng tôi cũng so sánh hệ
thống của chúng tôi với hai hệ thống: (1) hệ
thông dịch dựa vào cụm tốt nhất hiện nay –
Moses [5] mà ở đây có sử dụng mô hình đảo
trật tự từ vựng; (2) hệ thống HRM mà ở đây
hệ thống sử dụng mô hình đảo trật tự từ vựng
phân cấp [2]. Ở đây chúng tôi cũng đánh giá
hệ thống với từng loại đặc trưng bao gồm cả
địa phương lẫn toàn cục.
Để đánh giá ảnh hưởng của các đặc trựng địa
phương và toàn cục, chúng tôi thử nghiệm với
4 hệ thống sử dụng phương pháp trên bao
gồm: “HW + TG + SL”, “HW + TG + SL +
PF”, “HW + TG + SL + SBF”, HW + TG +
SL + PF + SBF (tất cả đặc trưng)”. Điểm
BLEU của hệ thống HRM và bốn hệ thống
MEM tương ứng là 35.39, 36.14, 36.35,
36.51, 36.76 mà ở đây cải tiến 0.64, 1.39,
1.67, 1.58, 2.01 điểm so với hệ thống Moses.
Điểm BLEU của hệ thống “HW + TG + SL” và
“HW + TG + SL + PF + SBF” cải tiến 0.75 và
1.37 điểm BLUE so với hệ thống HRM.
Bảng 2. Thống kê thông tin về kho dữ liệu Anh – Việt
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
112
English Vietnamese
Training Setences 54,642
Average sentence length 11.2 10.6
Words 614,578 580,754
Vocabulary 23,804 24,097
Test Sentences 499
Average sentence length 11.2 10.5
Words 5620 6240
Vocabulary 1844 1851
Bảng 3. Kết quả dịch với cặp ngôn ngữ Anh – Việt
sử dụng các tập đặc trưng khác nhau
Corpus Method BLEU score
General Baseline 34.07
Moses 34.75
HRM 35.39
HW+TG+SL 36.14
HW+TG+SL+PF 36.51
HW+TG+SL+SBF 36.42
HW+TG+SL+PF+SBF (all) 36.76
Phương pháp của chúng tôi là hiệu quả (HW
+ TG + SL + PF + SBF – kết hợp tất cả các
đặc trưng) cải tiến đáng kể so với mô hình
HRM với 1.37 điểm BLEU tốt hơn. Một
trong các nguyên nhân là số ví dụ của cặp
cụm xuất hiện lớn hơn 10 lần là 0.1 % trong
khi số ví dụ của cặp cụm xuất hiện 1 lần là
96.5%. Vì vậy, dẫn đến cách tính xác suất dựa
vào tần suất với mô hình HRM sẽ lỗi do hiện
tượng thưa dữ liệu.
KẾT LUẬN
Trong bài báo này, chúng tôi tập trung vào
nghiên cứu cải tiến mô hình đảo trật tự từ
vựng. Chúng tôi mở rộng mô hình đảo trật tự
cụm có phân cấp [2] sử dụng mô hình
Maximum Entropy (ME) để đoán hướng và
ước lượng xác suất . Với mô hình này, chúng
ta có thể tích hợp thông tin giàu trí thức ngôn
ngữ vào như các thuộc tính địa phương cũng
như là toàn cục. Kết quả thử nghiệm với cặp
ngôn ngữ Anh-Việt cho thấy cách tiếp cận
của chúng tôi tốt hơn so với cách tiếp cận sử
dụng mô hình từ vựng phân cấp [2]. Trong
tương lai chúng tôi tiếp tục thử nghiệm với dữ
liệu lớn hơn và các cặp ngôn ngữ khác như
Việt-Nhật, Việt-Trung.
SUMMARY
AN INTEGRATED APPROACH TO LANGUAGE OF INTELLECTUAL
INTO THE STATISTICAL MACHINE TRANSLATION
Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3
1Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội
2Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
3Trường Đại học Dân lập Hải Phòng
In this paper, we present a reordering model based on Maximum Entropy with local and non-local
features. This model is extended from a hierarchical reordering model with PBSMT [2], which
integrates rich syntactic information directly in decoder as local and non-local features of
Maximum Entropy model. The advantages of this model are (1) maintaining the strength of phrase
based approach with a hierarchical reordering model, (2) many kinds of rich linguistic information
integrated in PBSMT as local and non-local features of MaxEntropy model. The experiment
results with English-Vietnamese pair showed that our approach achieves significant improvements
over the system which uses a lexical hierarchical reordering model [2].
Keywwords: Reordering model based, intellectual language.
*
Tel: 0925009989
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
113
TÀI LIỆU THAM KHẢO
[1]. E. Charniak, “A maximum-entropy-inspired
parser,” in Proceedings of the ANLP-NAACL
2000, 2000, pp. 132–139.
[2]. M. Galley and C. D. Manning, “A simple and
effective hierarchical phrase reordering model,” in
Proceedings of the 2008 Conference on Empirical
Methods in Natural Language Processing, pp.
848–856
[3]. P. Koehn, “Pharaoh: A beam search decoder for
phrase-based statistical machine translation models,”
in Proceedings of AMTA, 2004, pp. 115–124.
[4]. P. Koehn, A. Axelrod, A. B. Mayne, C.
Callison-Burch, M. Osborne, D. Talbot, and M.
White, “Edinburgh system description for the
2005 nist mt evaluation,” in Proceedings of
Machine Translation Evaluation Workshop 2005.
[5]. P. Koehn, H. Hoang, A. Birch, C. Callison-
Burch, M. Federico, N. Bertoldi, B. Cowan, W.
Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A.
Constantin, and E. Herbst, “Moses: Open source
toolkit for statistical machine translation,” in
Proceedings of ACL, Demonstration Session, 2007.
[6]. P. Koehn, F. J. Och, and D. Marcu,
“Statistical phrase-based translation,” in
Proceedings of HLT-NAACL 2003. Edmonton,
Canada, 2003, pp. 127–133
[7]. F. J. Och and H. Ney, “A systematic
comparison of various statistical alignment
models,” Computational Linguistics, vol. 29, no.
1, pp. 19–51, 2003.
[8] K. Papineni, S. Roukos, T. Ward, and W. J. Z.
2002, “Bleu: a method for automatic evaluation of
machine translation,” in Proc. of the 40th Annual
Meeting of the Association for Computational
Linguistics (ACL). Philadelphia, PA, July, 2002,
pp. 311–318.
[9]. A. Stolcke, “Srilm - an extensible language
modeling toolkit,” in Proceedings of International
Conference on Spoken Language Processing, vol.
29, 2002, pp. 901–904
[10]. P. T. Nguyen, A. Shimazu, L.M. Nguyen,
and V. V. Nguyen, “A syntactic transformation
model for statistical machine translation,”
International Journal of Computer Processing of
Oriental Languages (IJCPOL), vol. 20, no. 2, pp.
1–20, 2007.
[11]. C. Tillmann, “A unigram orientation model
for statistical machine translation,” in Proceedings
of HLT-NAACL 2004: Short Papers, pp. 101–104.
[12]. D. Xiong, Q. Lui, and S. Lin, “Maximum
entropy based phrase reordering model for
statistical machine translation,” in Proceedings of
ACL’06, 2006, pp. 521–528.
[13]. R. Zens and H. Hey, “Discriminative
reordering models for statistical machine
translation,” in Proceeding of the Workshop on
Statistical Machine Translation, 2006, pp. 55–63.
[14].
[15].
Ngày nhận bài: 12/9/2013; Ngày phản biện: 05/10/2013; Ngày duyệt đăng: 18/11/2013
Phản biện khoa học: TS. Vũ Vinh Quang – Trường ĐH Công nghệ thông tin & TT – ĐHTN
Các file đính kèm theo tài liệu này:
- brief_41700_45470_16520141522518_5142_2048593.pdf