Chúng tôi đã xây dựng được một bộ cơ sở dữ
liệu cử chỉ tay với tập cử chỉ đa dạng, số
lượng lớn, điều kiện thu nhận phức tạp, đa
dạng trong môi trường thực tế dựa trên tập
quy ước của ngôn ngữ cử chỉ ASL. Nhóm
nghiên cứu đã thực hiện chụp ảnh trong môi
trường thực tế, sử dụng các phần mềm chuyên
dụng để xử lý và xây dựng cơ sở dữ liệu cho
quá trình huấn luyện. Cơ sở dữ liệu này tốt
hơn những cơ sở dữ liệu đang tồn tại trong
mục đích phát triển, thử nghiệm đánh giá các
phương pháp nhận dạng cử chỉ tay cũng như
việc phát triển hệ thống ứng dụng. Chúng tôi
dự định sẽ sử dụng cơ sở dữ liệu này trong
việc nghiên cứu phát triển các hệ thống nhận
dạng cử chỉ tay, đồng thời tiếp tục đánh giá và
bổ sung cơ sở dữ liệu để nâng cao chất lượng.
6 trang |
Chia sẻ: thucuc2301 | Lượt xem: 728 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay - Nguyễn Thị Tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
145
NGHIÊN CỨU VÀ PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY
Nguyễn Thị Tính*, Nguyễn Thị Thanh Tâm, Nguyễn Văn Tới, Lê Thu Trang
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
TÓM TẮT
Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử
chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ
tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con
người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các
phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng
dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc
nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng
dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này.
Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự
phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một
cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại.
Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL
(American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu
cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với
những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc
nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay.
Từ khóa: cử chỉ tay, hệ thống nhận dạng, nhận dạng cử chỉ, dữ liệu cử chỉ, American Sign Language
GIỚI THIỆU*
Bài toán nhận dạng cử chỉ có nhiều ứng dụng
[1], như: phát triển các công cụ trợ giúp nói
chuyện bằng tay, hệ thống hỗ trợ người khiếm
thính, giúp trẻ em có thể thao tác với máy
tính, chuẩn đoán các cảm xúc của bệnh nhân,
đo mức độ trầm cảm, phát hiện nói dối, tương
tác trong môi trường ảo, trợ giúp dạy học từ
xa v.v.. Thông thường một cử chỉ có thể là cử
chỉ tĩnh hoặc động. Một cử chỉ tĩnh được mô
tả bởi một hình trạng duy nhất của cơ thể
hoặc một bộ phận của cơ thể. Một cử chỉ
động là một chuỗi các hình trạng liên tiếp. Cử
chỉ tay được sử dụng phổ biến và đóng vai trò
quan trọng trong giao tiếp. Để nhận dạng cử
chỉ tay, cần phải biểu diễn cử chỉ tay, phân
tích các cử chỉ từ đó cho phép nhận dạng.
Thông thường, trong mỗi ứng dụng cụ thể,
một tập cử chỉ phải được định nghĩa trước.
Việc nhận dạng các cử chỉ thường được làm
sau khi đã học các cử chỉ định nghĩa.
Hiện nay, việc nghiên cứu các phương pháp
tự động nhận dạng cử chỉ đang thu hút sự
quan tâm của nhiều nhà khoa học trên thế
giới. Việc nghiên cứu, triển khai này đòi hỏi
*
Tel: 0986 060186, Email: nttinh@ictu.edu.vn
có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp
với môi trường ứng dụng thực tế để đánh giá
khách quan hiệu quả của các phương pháp và
đánh giá khả năng ứng dụng trong thực tế. Từ
nhu cầu trên, một số cơ sở dữ liệu cử chỉ tay
đã ra đời và đang được sử dụng [2]. Tuy
nhiên, những cơ sở dữ liệu đang tồn tại còn
có những hạn chế như tập cử chỉ chưa đa
dạng, phông nền đơn giản, chỉ bao gồm các
ảnh đen trắng...ví dự các tập cơ sở dữ liệu
được trình bày trong phần 3, chưa đáp ứng
được nhu cầu nghiên cứu, phát triển ở thời
điểm hiện tại và tương lai. Do đó, cần thiết
phải xây dựng một cơ sở dữ liệu mới, tốt hơn
đáp ứng nhu cầu nghiên cứu, thử nghiệm
cũng như triển khai hệ thống nhận dạng cử
chỉ tay. Tập cơ sở dữ liệu do chúng tôi xây
dựng có hầu hết các ưu điểm để có thể sử
dụng cho bài toán nhận dạng cử chỉ như: ảnh
thu được là ảnh màu, với phông nền phức tạp,
tập các cử chỉ tay là bảng chữ cái, chữ số
trong ngôn ngữ cử chỉ ASL đa dạng, phổ biến,
nhiều người biết. Đây là đóng góp chính của
chúng tôi được trình bày trong bài báo này.
Trong các phần tiếp theo trình bày các nội
dung: Phần 2 trình bày các phương pháp thu
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
146
thập dữ liệu và lựa chọn phương pháp phù
hợp để xây dựng tập cơ sở dữ liệu của chúng
tôi. Phần 3 giới thiệu một số cơ sở dữ liệu đã
tồn tại và ưu nhược điểm của chúng. Phần 4
trình bày quá trình thu nhập dữ liệu cử chỉ tay
và kết quả. Cuối cùng là phần kết luận hướng
nghiên cứu tiếp theo được trình bày trong
phần 5 của bài báo.
CÁC PHƯƠNG PHÁP THU THẬP DỮ LIỆU
Thu thập dữ liệu là một khâu quan trọng trong
bài toán xác định hình trạng của bàn tay (hand
posture) và nhận dạng cử chỉ (gesture
recognition). Có nhiều cách để thu thập dữ
liệu trong đó 2 phương pháp được sử dụng
nhiều nhất là: phương pháp dùng găng tay
chuyên dụng (glove-based) và phương pháp
sử dụng camera để thu nhận ảnh của bàn tay
(vision-based) [3], [4].
Phương pháp thu thập dữ liệu sử dụng
găng tay chuyên dụng: Phương pháp này đòi
hỏi người thử nghiệm phải đeo vào tay một
găng tay chuyên dụng. Găng tay có kết nối
với thiết bị thu nhận và xử lý dữ liệu ở bên
ngoài thông qua các dây cáp hoặc kết nối
không dây. Các dữ liệu thu được phải mô tả
được góc giữa các đốt tay cũng như vị trí của
ngón tay và bàn tay. Kiểu dữ liệu đưa ra phụ
thuộc hoàn toàn vào loại thiết bị sử dụng
như các thiết bị đo sử dụng từ tính, âm tính,
quán tính.
Phương pháp thu nhận ảnh bàn tay sử
dụng camera: Một trong số những hạn chế
lớn nhất của phương pháp thu thập dữ liệu cử
chỉ bàn tay sử dụng găng tay chuyên dụng là
người sử dụng phải đeo vào một găng tay có
tích hợp các bộ phát sóng điện từ, sóng siêu
âm, ánh sáng, hoặc các thiết bị đo gia tốc, vận
tốc, v.v.. Găng tay sau đó phải được kết nối
(có dây, hoặc không dây) với máy tính để xử
lý và nhận dạng. Việc đeo thiết bị khiến
người sử dụng bị khó chịu vì cồng kềnh, bất
tiện. Khi đeo vào một thiết bị như thế, các cử
động của bàn tay cũng trở nên mất tự nhiên.
Ngoài ra, giá thành của các loại găng tay khá
đắt. Phương pháp thu nhận ảnh bằng camera
tỏ ra hiệu quả hơn.
Phương pháp dùng camera để thu nhận ảnh
của bàn tay dùng trong bài toán nhận dạng cử
chỉ dựa trên các kỹ thuật xử lý ảnh và nhận
dạng là phù hợp với bài toán nhận dạng cử chỉ
vì hai lý do chính sau: 1) Đơn giản, gọn nhẹ,
không đòi hỏi phải đeo vào một loại găng tay
đặc biệt, các thao tác của bàn tay tự nhiên,
thoải mái. 2) Phạm vi thu nhận dữ liệu không
bị hạn chế do tránh được việc gắn các thiết bị
cồng kềnh vào bàn tay.
Với các lợi thế về nhiều mặt, phương pháp sử
dụng camera để thu nhận ảnh của bàn tay từ
đó cho phép xác định hình trạng cũng như
nhận dạng cử chỉ trở thành xu hướng chính
hiện nay. Với mục đích xây dựng cơ sở dữ
liệu cử chỉ tay cho hướng tiếp cận dựa trên thị
giác máy tính, chúng tôi sử dụng phương
pháp thu nhận ảnh bàn tay sử dụng camera.
MỘT SỐ CƠ SỞ DỮ LIỆU ẢNH CỬ CHỈ
ĐÃ CÓ
Trong phần 2, chúng tôi đã phân tích các ưu
nhược điểm của hai loại phương pháp thu
nhận dữ liệu để phục vụ cho bài toán nhận
dạng. Trong phần này chúng tôi trình bày kết
quả khảo sát, phân tích, đánh giá các cơ sở dữ
liệu đã tồn tại [2].
Cơ sở dữ liệu Cambridge [5]: Bộ dữ liệu
này gồm 900 ảnh của 9 lớp cử chỉ khác nhau.
Các lớp cử chỉ này được định nghĩa bởi 3
hình trạng cơ bản của bàn tay và 3 cử động
đơn giản. Mỗi lớp cử chỉ được mô tả bởi 100
ảnh (5 loại ánh sáng khác nhau x 10 chuyển
động ngẫu nhiên x 2 chủ thể khác nhau). Cơ
sở dữ liệu này có ưu điểm là tập cơ sở dữ liệu
gồm các ảnh màu, vì thế cho phép các giải
thuật sử dụng tính chất của màu da để phát
hiện bàn tay, mô tả về hệ cơ sở dữ liệu tương
đối rõ ràng. Tuy nhiên cơ sở dữ liệu này vẫn
có nhược điểm đó là nền của ảnh còn đơn
giản (màu ghi xám đồng đều), 9 lớp cử chỉ
đơn giản, các ngón tay và lòng bàn tay đều
vẫn nằm trên một mặt phẳng.
Cơ sở dữ liệu IDIAP-I [6], [7]: Cơ sở dữ
liệu bao gồm 7 loại cử chỉ khác nhau tạo từ 6
phép quay và một cử chỉ đẩy: quay lên, quay
xuống, quay trước, quay sau, quay trái, quay
phải, đẩy. Nhược điểm đó của cơ sở dữ liệu này
là mỗi tay đeo một găng có màu dễ phân biệt.
Cơ sở dữ liệu IDIAP-II [6], [7]: Cơ sở dữ
liệu chứa hàng nghìn ảnh chụp 6 lớp cử chỉ
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
147
khác nhau trên nền từ đơn giản đến phức tạp.
Mỗi hình trạng của bàn tay được chuẩn hóa
trong một cửa sổ với kích thước 20x20 với ký
hiệu A, 18x20 cho ký hiệu C, 5; 18x30 cho ký
hiệu B, Point,V. Cơ sở dữ liệu có ưu điểm là
các cử chỉ tĩnh cũng như một số các cử chỉ
động được mô tả. Nhược điểm là: ảnh đen
trắng nên không thích hợp với các giải thuật
sử dụng thuộc tính về màu sắc.
Cơ sở dữ liệu FRUNKFURT [8]: Bộ dữ liệu
bao gồm 10 tập cử chỉ (sign) thu nhận từ 24
tay người khác nhau trên 3 loại phông nền
khác nhau (nền đen, nền trắng, nền ngẫu
nhiên). Ảnh đen trắng 8 bít. Tổng cộng có
720 ảnh. Bộ dữ liệu này có điểm mạnh là: tập
cử chỉ tương đối phức tạp, sự thu nhận ảnh
của tay trên phông nền phức tạp cho phép thử
nghiệm tính hiệu quả của thuật toán nhận
dạng trong các điều kiện thu nhận khác nhau.
Tuy nhiên, vẫn có những điểm yếu đó là: ảnh
đen trắng vì thế không thể áp dụng các giải
thuật sử dụng màu, các bộ cử chỉ để thử
nghiệm mặc dù đã phức tạp hơn, trên phông
nền phức tạp hơn nhưng vẫn cùng kích thước,
hướng quay, v.v.. so với ảnh mẫu vì thế
không thử nghiệm được hiệu quả bất biến
của thuật toán đối với góc quay, sự thay
đổi về thang đo (scale change) cũng như trong
các điều kiện ánh sáng khác nhau.
Cơ sở dữ liệu AALBORG – I:Cơ sở dữ liệu
được xây dựng với 2060 ảnh đen trắng định
dạng TIFF độ phân giải 248x256 trên phông
đen. Mỗi cử chỉ được thu nhận nhiều lần
trong những điều kiện sai khác về góc nhìn,
thang đo, dịch chuyển, quay. Số lượng ảnh
với từng ký tự như sau: A: 40 B: 60 C: 40 D:
40 E: 40 F: 40 G: 100 H: 100 I: 100 K: 100 L:
100 M: 100 N: 100 O: 100 P: 100 Q: 100 R:
100 S: 100 T: 100 U: 100 V: 100 W: 100 X:
100 Y: 100. Cơ sở dữ liệu này có thế mạnh là:
một tập đầy đủ các cử chỉ tương ứng với bảng
chữ cái. Điểm yếu của cơ sở dữ liệu là: ảnh
đen trắng nên không cho phép sử dụng các
giải thuật dựa trên tính chất màu sắc.
Cơ sở dữ liệu AALBORG – II: Cơ sở dữ
liệu bao gồm 13 loại cử chỉ phân biệt: 9 cử
chỉ tĩnh và 4 loại cử chỉ động. Tất các các cử
chỉ khác còn lại được xếp vào loại "không
thuộc lớp cử chỉ định nghĩa" (unspecified
gesture). Các ảnh được thu nhận bằng cách
người đứng và tưởng tượng mình đang tương
tác với các đối tượng "ảo" được đặt trên bàn
để diễn tả các cử chỉ động (dynamique
gesture). Một số đồ vật có thể được thêm vào
hay bớt đi để tạo hiệu ứng phông nền, ánh
sáng thay đổi. Các video được thu nhận có độ
phân giải PAL (768x576). Cơ sở dữ liệu này
có ưu điểm là hình ảnh thu nhận được có mô
tả rất chi tiết, rõ ràng, ảnh mầu, có giá trị đối
với các giải thuật sử dụng màu, tập cử chỉ
tương đối đa dạng. Nhưng cơ sở dữ liệu này
vẫn có một số nhược điểm là: các cử chỉ được
thu nhận trong điều kiện tương đối đơn giản
về nền, trong mặt phẳng, góc quay, ánh sáng,
sự thay đổi về kích thước.
Cơ sở dữ liệu INRIA: 8 videos ghi lại hình
ảnh một người chỉ tay vào các vị trí khác
nhau thông qua 4 camera trong điều kiện ánh
sáng 60% ánh sáng ban ngày và 40% ánh
sáng neon. Video được lấy mẫu với tốc độ
25Hz độ phân giải 352x288. Cơ sở dữ liệu
này có ưu điểm là: ảnh mầu, có thông tin về
ground truth. Tuy nhiên còn có nhược điểm
là: chỉ sử dụng để thử nghiệm một loại cử chỉ
"Pointing".
Cơ sở dữ liệu KYUSHU[9]: gồm các ảnh
của 36 cử chỉ bàn tay (American Sign
Language). Các tác giả đã chỉ ra tập CSDL
được sử dụng nhưng lại không có mô tả về
CSDL này cũng như không thể tìm thấy
CSDL này để tải về sử dụng cho mục đích thử
nghiệm. Cơ sở dữ liệu có ưu điểm là: 36 cử
chỉ, thu nhận trên nền ảnh phức tạp. Những
nhược điểm là: không tồn tại để có thể thử
nghiệm, không có mô tả về CSDL.
Cơ sở dữ liệu Freiburg: Có 4 cử chỉ được
xem xét: vẫy tay; chỉ; kích thước (cử chỉ dùng
hai tay); diễn tả sự không biết (don’t know).
Cơ sở dữ liệu ảnh được thu thập từ ảnh của 5
người với các điều kiện ánh sáng khác nhau,
phông nền phức tạp. Ảnh được thu thập qua
camera và được chụp liên tục với tốc độ
20fps, độ phân giải 640x480. Mỗi cử chỉ bao
gồm 75 mẫu. Cơ sở dữ liệu này có nhiều ưu
điểm như: có sự đa dạng về chủ thể, điều kiện
ánh sáng và phông nền, số lượng ảnh là rất
lớn. Tuy nhiên vẫn có nhược điểm đó là: cơ
sở dữ liệu chỉ bao gồm các ảnh của những cử
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
148
chỉ liên tục, không có những cử chỉ tĩnh, chỉ
có 4 cử chỉ.
Từ những khảo sát, phân tích trên đây chúng
ta thấy mỗi cơ sở dữ liệu đều tồn tại những
nhược điểm như: nền chụp ảnh còn tương đối
đơn giản, tập cử chỉ chưa phong phú, chưa
đầy đủ, điều kiện thu nhận đơn giản. Như vậy
cần phải xây dựng một cơ sở dữ liệu cử chỉ
tay để khắc phục những nhược điểm của
những cơ sở dữ liệu đã có. Phần tiếp theo
chúng tôi trình bày quá trình xây dựng một
tập cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu
cầu này.
PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY
Chúng tôi sử dụng tập cử chỉ là bảng chữ cái,
chữ số trong ngôn ngữ cử chỉ ASL, Hình 1 và
Hình 2. Đây là những cử chỉ chuẩn, đầy đủ,
đa dạng, số lượng cử chỉ lớn, có thể sử dụng
để đánh giá các phương pháp nhận dạng cử
chỉ một cách hiệu quả. Tập cử chỉ này phổ
biến, được nhiều người trên thế giới biết đến.
Nhóm nghiên cứu dùng các cử chỉ này để xây
dựng nên một có sở dữ liệu mới lớn hơn, đầy
đủ, đa dạng với ảnh màu, điều kiện chụp là
môi trường thực tế.
Hình 1. Tập các cử chỉ chữ cái
Hình 2. Tập các cử chỉ chữ số
Tập cơ sở dữ liệu mà chúng tôi xây dựng là
tập ảnh màu, với đầy đủ 26 hình trạng chữ
cái, 10 hình trạng chữ số với điều kiện phức
tạp trong môi trường thực tế: phông nền phức
tạp, ánh sáng thay đổi, điều kiện chụp phong
phú, chụp trên nhiều đối tượng khác nhau.
Cơ sở dữ liệu bao gồm hai phần: cơ sở dữ liệu
huấn luyện để phục vụ cho các phương pháp
tiếp cận theo hướng học máy và cơ sở dữ liệu
thử nghiệm.
Dữ liệu huấn luyện: Là các dữ liệu dùng cho
việc học của một hệ nhận dạng. Trong quá
trình huấn luyện, bộ nhận dạng sẽ học từ các
dữ liệu này và ghi nhớ các đặc trưng của đối
tượng cần nhận dạng. Sau này, việc nhận
dạng sẽ thông qua các đặc trưng để nhận ra
đối tượng. Dữ liệu huấn luyện gồm 2 tập: tập
các ảnh chứa đối tượng cần nhận dạng
(positive samples) và tập các ảnh không chứa
đối tượng cần nhận dạng (negative samples).
Dữ liệu thử nghiệm: Là dữ liệu dùng cho
việc kiểm tra, đánh giá tỉ lệ nhận dạng của
một hệ nhận dạng. Tập dữ liệu này phải
không trùng với tập dữ liệu huấn luyện. Tỉ lệ
nhận dạng đúng các mẫu trong tập thử
nghiệm nói lên tính hiệu quả của hệ nhận
dạng. Bởi vì các dữ liệu này không tham gia
và quá trình huấn luyện của hệ nhận dạng cho
nên nếu hệ nhận dạng vẫn nhận dạng đúng
chứng tỏ các đặc trưng mà được trích rút ra
thật sự là các đặc trưng của đối tượng.
Xây dựng tập ảnh positive: Cơ sở dữ liệu
gồm 36 tập ảnh positive tương ứng với 36 cử
chỉ. Với mỗi cử chỉ, chúng tôi chụp hơn 1200
ảnh của 60 người khác nhau bằng webcam
hoặc camera với độ phân giải 640x480 pixels
trong nhiều điều kiện ánh sáng và phông nền
khác nhau: dưới ánh sáng đèn neon ở nhiều
phòng khác nhau, ánh sáng tự nhiên vào các
thời điểm khác nhau v.v Sau đó, loại các
mẫu không đạt chất lượng như ảnh quá mờ, tư
thế không rõ ràng, thực hiện sai cử chỉ, v.v...
để còn lại 1200 mẫu cho mỗi cử chỉ.
Tiến hành cắt ảnh để tách riêng vùng chứa cử
chỉ tay nhằm xây dựng bộ cơ sở dữ liệu dùng
để huấn luyện (positive samples). Cắt từ mỗi
ảnh nguồn một vùng hình chữ nhật chứa bàn
tay với yêu cầu: vùng hình chữ nhật bé nhất
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
149
có thể nhưng phải chứa toàn bộ bàn tay và các
ngón tay, không bao gồm cổ tay và cánh tay,
Hình 3. Chúng tôi sử dụng tiện ích
ImageCliper.
Ảnh nguồnẢnh kết quả
Hình 3. Tách vùng bàn tay ra khỏi ảnh nguồn
Xây dựng tập dữ liệu ảnh negative: Tập dữ
liệu gồm 1.500 ảnh đa mức xám kích thước
640x480 ở định dạng JPG. Trong đó 1.000
ảnh được lấy từ tập dữ liệu ảnh negative tải từ
[10], [11]. 500 ảnh còn lại là các ảnh do
chúng tôi bổ sung. Tất cả các ảnh này không
chứa các cử chỉ trong tập cử chỉ mà chúng tôi
sử dụng. Các ảnh này cũng là ảnh đa mức
xám và ảnh màu ở định dạng JPG kích thước
640x480.
Xây dựng tập dữ liệu ảnh thử nghiệm: Cơ sở
dữ liệu thử nghiệm cho 36 cử chỉ tương ứng
có 36 tập ảnh, mỗi tập dùng thử nghiệm cho
một cử chỉ. Các tập ảnh được thực hiện theo
quy trình như sau: chụp bằng webcam hoặc
camera ở độ phân giải 320x240 hoặc 640x480
từ 100 người, mỗi người 100 ảnh cho mỗi cử
chỉ trong các điều kiện chiếu sáng khác nhau
và phông nền phức tạp như: dưới ánh sáng
đèn neon ở nhiều phòng khác nhau, ánh sáng
tự nhiên vào các thời điểm khác nhau.
Như vậy, cơ sở dữ liệu do chúng tôi xây dựng
có sự đa dạng về loại cử chỉ (36 cử chỉ). Đối
tượng tham gia thu nhận đa dạng. Phông nền,
điều kiện chiếu sáng đa dạng trong môi
trường thực tế. Số lượng cử chỉ lớn. Cơ sở dữ
liệu này có thể đáp ứng nhu cầu phát triển,
thử nghiệm các thuật toán nhận dạng hình
trạng bàn tay và đánh giá các thuật toán này ở
nhiều khía cạnh khác nhau.
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU
TIẾP THEO
Chúng tôi đã xây dựng được một bộ cơ sở dữ
liệu cử chỉ tay với tập cử chỉ đa dạng, số
lượng lớn, điều kiện thu nhận phức tạp, đa
dạng trong môi trường thực tế dựa trên tập
quy ước của ngôn ngữ cử chỉ ASL. Nhóm
nghiên cứu đã thực hiện chụp ảnh trong môi
trường thực tế, sử dụng các phần mềm chuyên
dụng để xử lý và xây dựng cơ sở dữ liệu cho
quá trình huấn luyện. Cơ sở dữ liệu này tốt
hơn những cơ sở dữ liệu đang tồn tại trong
mục đích phát triển, thử nghiệm đánh giá các
phương pháp nhận dạng cử chỉ tay cũng như
việc phát triển hệ thống ứng dụng. Chúng tôi
dự định sẽ sử dụng cơ sở dữ liệu này trong
việc nghiên cứu phát triển các hệ thống nhận
dạng cử chỉ tay, đồng thời tiếp tục đánh giá và
bổ sung cơ sở dữ liệu để nâng cao chất lượng.
TÀI LIỆU THAM KHẢO
[1]. S. Mitra and T. Acharya, “Gesture
Recognition: A Survey,” IEEE Transactions on
Systems, Man and Cybernetics, Part C
(Applications and Reviews), vol. 37, no. 3, pp.
311–324, May 2007.
[2]. T. T. T. Hai, N. Q. Cuong, M. D. Khoa, and
V. X. Huy, “Báo cáo về nhận dạng cử chỉ bàn
tay,” 2010.
[3]. J. J. and L. Jr, “A Survey of Hand Posture and
Gesture Recognition Techniques and Technology,
Technical Report CS-99-11, Brown University,
Department of Computer Science.,” 1999.
[4]. R. Watson, “A Survey of Gesture Recognition
Techniques Technical Report TCD-CS-93-11,
Department of Computer Science Trinity College,
Dublin 2,” 1993.
[5]. T. Kim, S. Wong, and R. Cipolla, “Tensor
Canonical Correlation Analysis for Action
Classification,” in IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2007.
[6]. S. Marcel, “Hand posture recognition in a
body-face centered space,” in CHI EA ’99 CHI
'99 extended abstracts on Human factors in
computing systems, 1999, pp. 302–303.
[7]. S. Marcel, O. Bernier, J.-E. Viallet, and D.
Collobert, “Hand gesture recognition using input-
output hidden Markov models,” in Proceedings
Fourth IEEE International Conference on
Automatic Face and Gesture Recognition (Cat.
No. PR00580), 2000, no. Figure 1, pp. 456–461.
[8]. J. . Triesch and C. von der Malsburg, “Robust
classification of hand postures against complex
backgrounds,” in The Second International
Conference on Automatic Face and Gesture
Recognition, 1996., 1996, pp. 170 – 175.
[9]. N. D. Binh and T. Ejima, “Hand Gesture
Recognition Using Fuzzy Neural Network,” in
GVIP 2005, 2005, no. December, pp. 19–21.
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150
150
[10].“
haartraining.googlecode.com/svn/trunk/data/negati
ves/.” .
[11].
“
tml#z97120d9.” .
SUMMARY
BUILDING A NEW AND DIVERSE HAND-GESTURE DATABASE
Nguyen Thi Tinh*, Nguyen Thi Thanh Tam, Nguyen Van Toi, Le Thu Trang
College of Information and Communication Technology – TNU
This article presents a hand gesture database including letters, digits in sign language for the
purpose of the development, testing and implementation of the hand gesture recognition system.
The hand gesture is an effective means of communication among humans. Currently, the study of
automatic methods for gesture recognition to control machines such as computer programs,
communication with the robot as well as applications in supporting communication for the hearing
impaired people is interested by many scientists. The research and development require a diverse
gesture database, consistent with the realistic application environment. There exist a number of
hand gesture database meeting this demand. However, each type of existing databases has its own
limitations, and cannot meet the rapid development in the present and the future. Therefore, we
built a better database of hand gestures overcoming the disadvantages of the existing databases.
Database that we built based on the alphabet, numbers of sign language ASL (American Sign
Language). This is a set of standard gestures and widely used. Hand gesture database that we built
is diverse. We collected data in real environments with different lighting conditions. This database
can meet the needs of the research, testing methods as well as the implementation of hand gesture
recognition application.
Key words: hand gesture, recognition system, gesture recognition, gesture database, American
Sign Language
Ngày nhận bài:06/11/2012, ngày duyệt đăng:18/11/2012, ngày duyệt đăng:10/12/2012
*
Tel: 0986 060186, Email: nttinh@ictu.edu.vn
Các file đính kèm theo tài liệu này:
- brief_36963_40546_2032013162010145_9918_2052168.pdf