Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay - Nguyễn Thị Tính

Chúng tôi đã xây dựng được một bộ cơ sở dữ liệu cử chỉ tay với tập cử chỉ đa dạng, số lượng lớn, điều kiện thu nhận phức tạp, đa dạng trong môi trường thực tế dựa trên tập quy ước của ngôn ngữ cử chỉ ASL. Nhóm nghiên cứu đã thực hiện chụp ảnh trong môi trường thực tế, sử dụng các phần mềm chuyên dụng để xử lý và xây dựng cơ sở dữ liệu cho quá trình huấn luyện. Cơ sở dữ liệu này tốt hơn những cơ sở dữ liệu đang tồn tại trong mục đích phát triển, thử nghiệm đánh giá các phương pháp nhận dạng cử chỉ tay cũng như việc phát triển hệ thống ứng dụng. Chúng tôi dự định sẽ sử dụng cơ sở dữ liệu này trong việc nghiên cứu phát triển các hệ thống nhận dạng cử chỉ tay, đồng thời tiếp tục đánh giá và bổ sung cơ sở dữ liệu để nâng cao chất lượng.

6 trang | Chia sẻ: thucuc2301 | Lượt xem: 584 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay - Nguyễn Thị Tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 145 NGHIÊN CỨU VÀ PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY Nguyễn Thị Tính*, Nguyễn Thị Thanh Tâm, Nguyễn Văn Tới, Lê Thu Trang Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên TÓM TẮT Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này. Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại. Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL (American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay. Từ khóa: cử chỉ tay, hệ thống nhận dạng, nhận dạng cử chỉ, dữ liệu cử chỉ, American Sign Language GIỚI THIỆU* Bài toán nhận dạng cử chỉ có nhiều ứng dụng [1], như: phát triển các công cụ trợ giúp nói chuyện bằng tay, hệ thống hỗ trợ người khiếm thính, giúp trẻ em có thể thao tác với máy tính, chuẩn đoán các cảm xúc của bệnh nhân, đo mức độ trầm cảm, phát hiện nói dối, tương tác trong môi trường ảo, trợ giúp dạy học từ xa v.v.. Thông thường một cử chỉ có thể là cử chỉ tĩnh hoặc động. Một cử chỉ tĩnh được mô tả bởi một hình trạng duy nhất của cơ thể hoặc một bộ phận của cơ thể. Một cử chỉ động là một chuỗi các hình trạng liên tiếp. Cử chỉ tay được sử dụng phổ biến và đóng vai trò quan trọng trong giao tiếp. Để nhận dạng cử chỉ tay, cần phải biểu diễn cử chỉ tay, phân tích các cử chỉ từ đó cho phép nhận dạng. Thông thường, trong mỗi ứng dụng cụ thể, một tập cử chỉ phải được định nghĩa trước. Việc nhận dạng các cử chỉ thường được làm sau khi đã học các cử chỉ định nghĩa. Hiện nay, việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ đang thu hút sự quan tâm của nhiều nhà khoa học trên thế giới. Việc nghiên cứu, triển khai này đòi hỏi * Tel: 0986 060186, Email: nttinh@ictu.edu.vn có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng dụng thực tế để đánh giá khách quan hiệu quả của các phương pháp và đánh giá khả năng ứng dụng trong thực tế. Từ nhu cầu trên, một số cơ sở dữ liệu cử chỉ tay đã ra đời và đang được sử dụng [2]. Tuy nhiên, những cơ sở dữ liệu đang tồn tại còn có những hạn chế như tập cử chỉ chưa đa dạng, phông nền đơn giản, chỉ bao gồm các ảnh đen trắng...ví dự các tập cơ sở dữ liệu được trình bày trong phần 3, chưa đáp ứng được nhu cầu nghiên cứu, phát triển ở thời điểm hiện tại và tương lai. Do đó, cần thiết phải xây dựng một cơ sở dữ liệu mới, tốt hơn đáp ứng nhu cầu nghiên cứu, thử nghiệm cũng như triển khai hệ thống nhận dạng cử chỉ tay. Tập cơ sở dữ liệu do chúng tôi xây dựng có hầu hết các ưu điểm để có thể sử dụng cho bài toán nhận dạng cử chỉ như: ảnh thu được là ảnh màu, với phông nền phức tạp, tập các cử chỉ tay là bảng chữ cái, chữ số trong ngôn ngữ cử chỉ ASL đa dạng, phổ biến, nhiều người biết. Đây là đóng góp chính của chúng tôi được trình bày trong bài báo này. Trong các phần tiếp theo trình bày các nội dung: Phần 2 trình bày các phương pháp thu Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 146 thập dữ liệu và lựa chọn phương pháp phù hợp để xây dựng tập cơ sở dữ liệu của chúng tôi. Phần 3 giới thiệu một số cơ sở dữ liệu đã tồn tại và ưu nhược điểm của chúng. Phần 4 trình bày quá trình thu nhập dữ liệu cử chỉ tay và kết quả. Cuối cùng là phần kết luận hướng nghiên cứu tiếp theo được trình bày trong phần 5 của bài báo. CÁC PHƯƠNG PHÁP THU THẬP DỮ LIỆU Thu thập dữ liệu là một khâu quan trọng trong bài toán xác định hình trạng của bàn tay (hand posture) và nhận dạng cử chỉ (gesture recognition). Có nhiều cách để thu thập dữ liệu trong đó 2 phương pháp được sử dụng nhiều nhất là: phương pháp dùng găng tay chuyên dụng (glove-based) và phương pháp sử dụng camera để thu nhận ảnh của bàn tay (vision-based) [3], [4]. Phương pháp thu thập dữ liệu sử dụng găng tay chuyên dụng: Phương pháp này đòi hỏi người thử nghiệm phải đeo vào tay một găng tay chuyên dụng. Găng tay có kết nối với thiết bị thu nhận và xử lý dữ liệu ở bên ngoài thông qua các dây cáp hoặc kết nối không dây. Các dữ liệu thu được phải mô tả được góc giữa các đốt tay cũng như vị trí của ngón tay và bàn tay. Kiểu dữ liệu đưa ra phụ thuộc hoàn toàn vào loại thiết bị sử dụng như các thiết bị đo sử dụng từ tính, âm tính, quán tính. Phương pháp thu nhận ảnh bàn tay sử dụng camera: Một trong số những hạn chế lớn nhất của phương pháp thu thập dữ liệu cử chỉ bàn tay sử dụng găng tay chuyên dụng là người sử dụng phải đeo vào một găng tay có tích hợp các bộ phát sóng điện từ, sóng siêu âm, ánh sáng, hoặc các thiết bị đo gia tốc, vận tốc, v.v.. Găng tay sau đó phải được kết nối (có dây, hoặc không dây) với máy tính để xử lý và nhận dạng. Việc đeo thiết bị khiến người sử dụng bị khó chịu vì cồng kềnh, bất tiện. Khi đeo vào một thiết bị như thế, các cử động của bàn tay cũng trở nên mất tự nhiên. Ngoài ra, giá thành của các loại găng tay khá đắt. Phương pháp thu nhận ảnh bằng camera tỏ ra hiệu quả hơn. Phương pháp dùng camera để thu nhận ảnh của bàn tay dùng trong bài toán nhận dạng cử chỉ dựa trên các kỹ thuật xử lý ảnh và nhận dạng là phù hợp với bài toán nhận dạng cử chỉ vì hai lý do chính sau: 1) Đơn giản, gọn nhẹ, không đòi hỏi phải đeo vào một loại găng tay đặc biệt, các thao tác của bàn tay tự nhiên, thoải mái. 2) Phạm vi thu nhận dữ liệu không bị hạn chế do tránh được việc gắn các thiết bị cồng kềnh vào bàn tay. Với các lợi thế về nhiều mặt, phương pháp sử dụng camera để thu nhận ảnh của bàn tay từ đó cho phép xác định hình trạng cũng như nhận dạng cử chỉ trở thành xu hướng chính hiện nay. Với mục đích xây dựng cơ sở dữ liệu cử chỉ tay cho hướng tiếp cận dựa trên thị giác máy tính, chúng tôi sử dụng phương pháp thu nhận ảnh bàn tay sử dụng camera. MỘT SỐ CƠ SỞ DỮ LIỆU ẢNH CỬ CHỈ ĐÃ CÓ Trong phần 2, chúng tôi đã phân tích các ưu nhược điểm của hai loại phương pháp thu nhận dữ liệu để phục vụ cho bài toán nhận dạng. Trong phần này chúng tôi trình bày kết quả khảo sát, phân tích, đánh giá các cơ sở dữ liệu đã tồn tại [2]. Cơ sở dữ liệu Cambridge [5]: Bộ dữ liệu này gồm 900 ảnh của 9 lớp cử chỉ khác nhau. Các lớp cử chỉ này được định nghĩa bởi 3 hình trạng cơ bản của bàn tay và 3 cử động đơn giản. Mỗi lớp cử chỉ được mô tả bởi 100 ảnh (5 loại ánh sáng khác nhau x 10 chuyển động ngẫu nhiên x 2 chủ thể khác nhau). Cơ sở dữ liệu này có ưu điểm là tập cơ sở dữ liệu gồm các ảnh màu, vì thế cho phép các giải thuật sử dụng tính chất của màu da để phát hiện bàn tay, mô tả về hệ cơ sở dữ liệu tương đối rõ ràng. Tuy nhiên cơ sở dữ liệu này vẫn có nhược điểm đó là nền của ảnh còn đơn giản (màu ghi xám đồng đều), 9 lớp cử chỉ đơn giản, các ngón tay và lòng bàn tay đều vẫn nằm trên một mặt phẳng. Cơ sở dữ liệu IDIAP-I [6], [7]: Cơ sở dữ liệu bao gồm 7 loại cử chỉ khác nhau tạo từ 6 phép quay và một cử chỉ đẩy: quay lên, quay xuống, quay trước, quay sau, quay trái, quay phải, đẩy. Nhược điểm đó của cơ sở dữ liệu này là mỗi tay đeo một găng có màu dễ phân biệt. Cơ sở dữ liệu IDIAP-II [6], [7]: Cơ sở dữ liệu chứa hàng nghìn ảnh chụp 6 lớp cử chỉ Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 147 khác nhau trên nền từ đơn giản đến phức tạp. Mỗi hình trạng của bàn tay được chuẩn hóa trong một cửa sổ với kích thước 20x20 với ký hiệu A, 18x20 cho ký hiệu C, 5; 18x30 cho ký hiệu B, Point,V. Cơ sở dữ liệu có ưu điểm là các cử chỉ tĩnh cũng như một số các cử chỉ động được mô tả. Nhược điểm là: ảnh đen trắng nên không thích hợp với các giải thuật sử dụng thuộc tính về màu sắc. Cơ sở dữ liệu FRUNKFURT [8]: Bộ dữ liệu bao gồm 10 tập cử chỉ (sign) thu nhận từ 24 tay người khác nhau trên 3 loại phông nền khác nhau (nền đen, nền trắng, nền ngẫu nhiên). Ảnh đen trắng 8 bít. Tổng cộng có 720 ảnh. Bộ dữ liệu này có điểm mạnh là: tập cử chỉ tương đối phức tạp, sự thu nhận ảnh của tay trên phông nền phức tạp cho phép thử nghiệm tính hiệu quả của thuật toán nhận dạng trong các điều kiện thu nhận khác nhau. Tuy nhiên, vẫn có những điểm yếu đó là: ảnh đen trắng vì thế không thể áp dụng các giải thuật sử dụng màu, các bộ cử chỉ để thử nghiệm mặc dù đã phức tạp hơn, trên phông nền phức tạp hơn nhưng vẫn cùng kích thước, hướng quay, v.v.. so với ảnh mẫu vì thế không thử nghiệm được hiệu quả bất biến của thuật toán đối với góc quay, sự thay đổi về thang đo (scale change) cũng như trong các điều kiện ánh sáng khác nhau. Cơ sở dữ liệu AALBORG – I:Cơ sở dữ liệu được xây dựng với 2060 ảnh đen trắng định dạng TIFF độ phân giải 248x256 trên phông đen. Mỗi cử chỉ được thu nhận nhiều lần trong những điều kiện sai khác về góc nhìn, thang đo, dịch chuyển, quay. Số lượng ảnh với từng ký tự như sau: A: 40 B: 60 C: 40 D: 40 E: 40 F: 40 G: 100 H: 100 I: 100 K: 100 L: 100 M: 100 N: 100 O: 100 P: 100 Q: 100 R: 100 S: 100 T: 100 U: 100 V: 100 W: 100 X: 100 Y: 100. Cơ sở dữ liệu này có thế mạnh là: một tập đầy đủ các cử chỉ tương ứng với bảng chữ cái. Điểm yếu của cơ sở dữ liệu là: ảnh đen trắng nên không cho phép sử dụng các giải thuật dựa trên tính chất màu sắc. Cơ sở dữ liệu AALBORG – II: Cơ sở dữ liệu bao gồm 13 loại cử chỉ phân biệt: 9 cử chỉ tĩnh và 4 loại cử chỉ động. Tất các các cử chỉ khác còn lại được xếp vào loại "không thuộc lớp cử chỉ định nghĩa" (unspecified gesture). Các ảnh được thu nhận bằng cách người đứng và tưởng tượng mình đang tương tác với các đối tượng "ảo" được đặt trên bàn để diễn tả các cử chỉ động (dynamique gesture). Một số đồ vật có thể được thêm vào hay bớt đi để tạo hiệu ứng phông nền, ánh sáng thay đổi. Các video được thu nhận có độ phân giải PAL (768x576). Cơ sở dữ liệu này có ưu điểm là hình ảnh thu nhận được có mô tả rất chi tiết, rõ ràng, ảnh mầu, có giá trị đối với các giải thuật sử dụng màu, tập cử chỉ tương đối đa dạng. Nhưng cơ sở dữ liệu này vẫn có một số nhược điểm là: các cử chỉ được thu nhận trong điều kiện tương đối đơn giản về nền, trong mặt phẳng, góc quay, ánh sáng, sự thay đổi về kích thước. Cơ sở dữ liệu INRIA: 8 videos ghi lại hình ảnh một người chỉ tay vào các vị trí khác nhau thông qua 4 camera trong điều kiện ánh sáng 60% ánh sáng ban ngày và 40% ánh sáng neon. Video được lấy mẫu với tốc độ 25Hz độ phân giải 352x288. Cơ sở dữ liệu này có ưu điểm là: ảnh mầu, có thông tin về ground truth. Tuy nhiên còn có nhược điểm là: chỉ sử dụng để thử nghiệm một loại cử chỉ "Pointing". Cơ sở dữ liệu KYUSHU[9]: gồm các ảnh của 36 cử chỉ bàn tay (American Sign Language). Các tác giả đã chỉ ra tập CSDL được sử dụng nhưng lại không có mô tả về CSDL này cũng như không thể tìm thấy CSDL này để tải về sử dụng cho mục đích thử nghiệm. Cơ sở dữ liệu có ưu điểm là: 36 cử chỉ, thu nhận trên nền ảnh phức tạp. Những nhược điểm là: không tồn tại để có thể thử nghiệm, không có mô tả về CSDL. Cơ sở dữ liệu Freiburg: Có 4 cử chỉ được xem xét: vẫy tay; chỉ; kích thước (cử chỉ dùng hai tay); diễn tả sự không biết (don’t know). Cơ sở dữ liệu ảnh được thu thập từ ảnh của 5 người với các điều kiện ánh sáng khác nhau, phông nền phức tạp. Ảnh được thu thập qua camera và được chụp liên tục với tốc độ 20fps, độ phân giải 640x480. Mỗi cử chỉ bao gồm 75 mẫu. Cơ sở dữ liệu này có nhiều ưu điểm như: có sự đa dạng về chủ thể, điều kiện ánh sáng và phông nền, số lượng ảnh là rất lớn. Tuy nhiên vẫn có nhược điểm đó là: cơ sở dữ liệu chỉ bao gồm các ảnh của những cử Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 148 chỉ liên tục, không có những cử chỉ tĩnh, chỉ có 4 cử chỉ. Từ những khảo sát, phân tích trên đây chúng ta thấy mỗi cơ sở dữ liệu đều tồn tại những nhược điểm như: nền chụp ảnh còn tương đối đơn giản, tập cử chỉ chưa phong phú, chưa đầy đủ, điều kiện thu nhận đơn giản. Như vậy cần phải xây dựng một cơ sở dữ liệu cử chỉ tay để khắc phục những nhược điểm của những cơ sở dữ liệu đã có. Phần tiếp theo chúng tôi trình bày quá trình xây dựng một tập cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này. PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY Chúng tôi sử dụng tập cử chỉ là bảng chữ cái, chữ số trong ngôn ngữ cử chỉ ASL, Hình 1 và Hình 2. Đây là những cử chỉ chuẩn, đầy đủ, đa dạng, số lượng cử chỉ lớn, có thể sử dụng để đánh giá các phương pháp nhận dạng cử chỉ một cách hiệu quả. Tập cử chỉ này phổ biến, được nhiều người trên thế giới biết đến. Nhóm nghiên cứu dùng các cử chỉ này để xây dựng nên một có sở dữ liệu mới lớn hơn, đầy đủ, đa dạng với ảnh màu, điều kiện chụp là môi trường thực tế. Hình 1. Tập các cử chỉ chữ cái Hình 2. Tập các cử chỉ chữ số Tập cơ sở dữ liệu mà chúng tôi xây dựng là tập ảnh màu, với đầy đủ 26 hình trạng chữ cái, 10 hình trạng chữ số với điều kiện phức tạp trong môi trường thực tế: phông nền phức tạp, ánh sáng thay đổi, điều kiện chụp phong phú, chụp trên nhiều đối tượng khác nhau. Cơ sở dữ liệu bao gồm hai phần: cơ sở dữ liệu huấn luyện để phục vụ cho các phương pháp tiếp cận theo hướng học máy và cơ sở dữ liệu thử nghiệm. Dữ liệu huấn luyện: Là các dữ liệu dùng cho việc học của một hệ nhận dạng. Trong quá trình huấn luyện, bộ nhận dạng sẽ học từ các dữ liệu này và ghi nhớ các đặc trưng của đối tượng cần nhận dạng. Sau này, việc nhận dạng sẽ thông qua các đặc trưng để nhận ra đối tượng. Dữ liệu huấn luyện gồm 2 tập: tập các ảnh chứa đối tượng cần nhận dạng (positive samples) và tập các ảnh không chứa đối tượng cần nhận dạng (negative samples). Dữ liệu thử nghiệm: Là dữ liệu dùng cho việc kiểm tra, đánh giá tỉ lệ nhận dạng của một hệ nhận dạng. Tập dữ liệu này phải không trùng với tập dữ liệu huấn luyện. Tỉ lệ nhận dạng đúng các mẫu trong tập thử nghiệm nói lên tính hiệu quả của hệ nhận dạng. Bởi vì các dữ liệu này không tham gia và quá trình huấn luyện của hệ nhận dạng cho nên nếu hệ nhận dạng vẫn nhận dạng đúng chứng tỏ các đặc trưng mà được trích rút ra thật sự là các đặc trưng của đối tượng. Xây dựng tập ảnh positive: Cơ sở dữ liệu gồm 36 tập ảnh positive tương ứng với 36 cử chỉ. Với mỗi cử chỉ, chúng tôi chụp hơn 1200 ảnh của 60 người khác nhau bằng webcam hoặc camera với độ phân giải 640x480 pixels trong nhiều điều kiện ánh sáng và phông nền khác nhau: dưới ánh sáng đèn neon ở nhiều phòng khác nhau, ánh sáng tự nhiên vào các thời điểm khác nhau v.v Sau đó, loại các mẫu không đạt chất lượng như ảnh quá mờ, tư thế không rõ ràng, thực hiện sai cử chỉ, v.v... để còn lại 1200 mẫu cho mỗi cử chỉ. Tiến hành cắt ảnh để tách riêng vùng chứa cử chỉ tay nhằm xây dựng bộ cơ sở dữ liệu dùng để huấn luyện (positive samples). Cắt từ mỗi ảnh nguồn một vùng hình chữ nhật chứa bàn tay với yêu cầu: vùng hình chữ nhật bé nhất Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 149 có thể nhưng phải chứa toàn bộ bàn tay và các ngón tay, không bao gồm cổ tay và cánh tay, Hình 3. Chúng tôi sử dụng tiện ích ImageCliper. Ảnh nguồnẢnh kết quả Hình 3. Tách vùng bàn tay ra khỏi ảnh nguồn Xây dựng tập dữ liệu ảnh negative: Tập dữ liệu gồm 1.500 ảnh đa mức xám kích thước 640x480 ở định dạng JPG. Trong đó 1.000 ảnh được lấy từ tập dữ liệu ảnh negative tải từ [10], [11]. 500 ảnh còn lại là các ảnh do chúng tôi bổ sung. Tất cả các ảnh này không chứa các cử chỉ trong tập cử chỉ mà chúng tôi sử dụng. Các ảnh này cũng là ảnh đa mức xám và ảnh màu ở định dạng JPG kích thước 640x480. Xây dựng tập dữ liệu ảnh thử nghiệm: Cơ sở dữ liệu thử nghiệm cho 36 cử chỉ tương ứng có 36 tập ảnh, mỗi tập dùng thử nghiệm cho một cử chỉ. Các tập ảnh được thực hiện theo quy trình như sau: chụp bằng webcam hoặc camera ở độ phân giải 320x240 hoặc 640x480 từ 100 người, mỗi người 100 ảnh cho mỗi cử chỉ trong các điều kiện chiếu sáng khác nhau và phông nền phức tạp như: dưới ánh sáng đèn neon ở nhiều phòng khác nhau, ánh sáng tự nhiên vào các thời điểm khác nhau. Như vậy, cơ sở dữ liệu do chúng tôi xây dựng có sự đa dạng về loại cử chỉ (36 cử chỉ). Đối tượng tham gia thu nhận đa dạng. Phông nền, điều kiện chiếu sáng đa dạng trong môi trường thực tế. Số lượng cử chỉ lớn. Cơ sở dữ liệu này có thể đáp ứng nhu cầu phát triển, thử nghiệm các thuật toán nhận dạng hình trạng bàn tay và đánh giá các thuật toán này ở nhiều khía cạnh khác nhau. KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Chúng tôi đã xây dựng được một bộ cơ sở dữ liệu cử chỉ tay với tập cử chỉ đa dạng, số lượng lớn, điều kiện thu nhận phức tạp, đa dạng trong môi trường thực tế dựa trên tập quy ước của ngôn ngữ cử chỉ ASL. Nhóm nghiên cứu đã thực hiện chụp ảnh trong môi trường thực tế, sử dụng các phần mềm chuyên dụng để xử lý và xây dựng cơ sở dữ liệu cho quá trình huấn luyện. Cơ sở dữ liệu này tốt hơn những cơ sở dữ liệu đang tồn tại trong mục đích phát triển, thử nghiệm đánh giá các phương pháp nhận dạng cử chỉ tay cũng như việc phát triển hệ thống ứng dụng. Chúng tôi dự định sẽ sử dụng cơ sở dữ liệu này trong việc nghiên cứu phát triển các hệ thống nhận dạng cử chỉ tay, đồng thời tiếp tục đánh giá và bổ sung cơ sở dữ liệu để nâng cao chất lượng. TÀI LIỆU THAM KHẢO [1]. S. Mitra and T. Acharya, “Gesture Recognition: A Survey,” IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications and Reviews), vol. 37, no. 3, pp. 311–324, May 2007. [2]. T. T. T. Hai, N. Q. Cuong, M. D. Khoa, and V. X. Huy, “Báo cáo về nhận dạng cử chỉ bàn tay,” 2010. [3]. J. J. and L. Jr, “A Survey of Hand Posture and Gesture Recognition Techniques and Technology, Technical Report CS-99-11, Brown University, Department of Computer Science.,” 1999. [4]. R. Watson, “A Survey of Gesture Recognition Techniques Technical Report TCD-CS-93-11, Department of Computer Science Trinity College, Dublin 2,” 1993. [5]. T. Kim, S. Wong, and R. Cipolla, “Tensor Canonical Correlation Analysis for Action Classification,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2007. [6]. S. Marcel, “Hand posture recognition in a body-face centered space,” in CHI EA ’99 CHI '99 extended abstracts on Human factors in computing systems, 1999, pp. 302–303. [7]. S. Marcel, O. Bernier, J.-E. Viallet, and D. Collobert, “Hand gesture recognition using input- output hidden Markov models,” in Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition (Cat. No. PR00580), 2000, no. Figure 1, pp. 456–461. [8]. J. . Triesch and C. von der Malsburg, “Robust classification of hand postures against complex backgrounds,” in The Second International Conference on Automatic Face and Gesture Recognition, 1996., 1996, pp. 170 – 175. [9]. N. D. Binh and T. Ejima, “Hand Gesture Recognition Using Fuzzy Neural Network,” in GVIP 2005, 2005, no. December, pp. 19–21. Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 150 [10].“ haartraining.googlecode.com/svn/trunk/data/negati ves/.” . [11]. “ tml#z97120d9.” . SUMMARY BUILDING A NEW AND DIVERSE HAND-GESTURE DATABASE Nguyen Thi Tinh*, Nguyen Thi Thanh Tam, Nguyen Van Toi, Le Thu Trang College of Information and Communication Technology – TNU This article presents a hand gesture database including letters, digits in sign language for the purpose of the development, testing and implementation of the hand gesture recognition system. The hand gesture is an effective means of communication among humans. Currently, the study of automatic methods for gesture recognition to control machines such as computer programs, communication with the robot as well as applications in supporting communication for the hearing impaired people is interested by many scientists. The research and development require a diverse gesture database, consistent with the realistic application environment. There exist a number of hand gesture database meeting this demand. However, each type of existing databases has its own limitations, and cannot meet the rapid development in the present and the future. Therefore, we built a better database of hand gestures overcoming the disadvantages of the existing databases. Database that we built based on the alphabet, numbers of sign language ASL (American Sign Language). This is a set of standard gestures and widely used. Hand gesture database that we built is diverse. We collected data in real environments with different lighting conditions. This database can meet the needs of the research, testing methods as well as the implementation of hand gesture recognition application. Key words: hand gesture, recognition system, gesture recognition, gesture database, American Sign Language Ngày nhận bài:06/11/2012, ngày duyệt đăng:18/11/2012, ngày duyệt đăng:10/12/2012 * Tel: 0986 060186, Email: nttinh@ictu.edu.vn

Các file đính kèm theo tài liệu này:

brief_36963_40546_2032013162010145_9918_2052168.pdf