Tách nguồn mù (BSS) áp dụng cho âm thanh trong một số điều kiện khác nhau

ABSTRACT: Our ears often simultaneously receive various sound sources (speech, music, noise . . .), but we can still listen to the intended sound. A system of speech recognition must be able to achieve the same intelligent level. The problem is that we receive many mixed (combined) signals from many different source signals, and would like to recover them separately. This is the problem of Blind Source Separation (BSS). In the last decade or so a method has been developed to solve the above problem effectively, that is the Independent Component Analysis (ICA). There are many ICA algorithms for different applications. This report describes our application to sound separation when there are more sources than mixtures (underdetermined case). The results were quite good

pdf9 trang | Chia sẻ: yendt2356 | Lượt xem: 532 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Tách nguồn mù (BSS) áp dụng cho âm thanh trong một số điều kiện khác nhau, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Science & Technology Development, Vol 14, No.T5 2011 Trang 34 TÁCH NGU4N MÙ (BSS) ÁP D#NG CHO ÂM THANH TRONG M5T S ĐI U KIN KHÁC NHAU Trương T6n Quang, Trn Quang Huy, Nguy7n H8u Phương Trưng Đi hc Khoa hc T nhiên, ĐHQG-HCM (Bài nhn ngày 21 tháng 03 năm 2011, hoàn chnh sa cha ngày 23 tháng 04 năm 2012) TÓM T T: Tai ta thưng ñng thi tip nhn nhi u ngun âm (ting nói, âm nhc, nhi6u) khác nhau nhưng ta v7n có th l!ng nghe ngun âm ch ñnh. Mt h thng nhn dng ting cn ñt ñn kh năng thông minh như vy. Bài toán là t$ nhi u tín hiu ñã trn l7n ta mun khôi phc các tín hiu ngun riêng r5. Đây là bài toán tách ngun mù (Blind Source Separation - BSS). Trong hơn chc năm qua, ngưi ta ñã phát trin mt phương pháp m i giúp gii bài toán nêu trên r#t hiu qu, ñó là phân tích thành phn ñc lp (Independent Component Analysis – ICA). Có nhi u thut toán ICA cho các ng dng khác nhau. Báo cáo trình bày ng dng ICA cho tách âm trưng h p s ngun nhi u hơn s trn (dư i xác ñnh). Chúng tôi thc nghim trên nhi u loi tín hiu. Kt qu r#t tt. T khóa: tách mgun mù, phân tích thành phn ñc lp, dư i xác ñnh. M Đ U Bài toán phân tách ngun mù BSS (Blind Source Separation) ñang ñưc quan tâm nghiên c u và ng d ng trong nhiu lĩnh vc x lý tín hiu khác nhau: tách âm, nh n dng, tín hiu y sinh [1][2][3]. Bài toán BSS cho phép ưc lưng li các tín hiu ngun nguyên bn mà ch! da vào nhng d liu h%n hp thu ñưc ti các cm bin kho sát và ñc trưng c#a kênh truyn cũng như các tín hiu ngun gn như không bit (Hình 1). Hình 1. M c ñích c#a phân tách ngun mù là ch! s d ng tín hiu h%n hp lai trn ñ tìm li tín hiu gc TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011 Trang 35 Tng quát bài toán phân tách ngun m# - BSS ñưc phát biu như sau: cho M h%n hp lai trn tuyn tính t( N ngun to qua ma tr n lai trn M x N không bit trưc A. Bài toán phân tách ngun mù BSS yêu cu phân tích cu trúc d liu kho sát và tách các ngun gc t( h%n hp lai trn này. Khi M ≥ N, có th thc hin bng cách xây dng ma tr n gii lai trn W, vi W=A-1. Đ ñm bo phân tách ñưc, các ñiu kin cn tuân theo ñnh lý Darmois [1]: các ngun là phi Gauss và ñc l p thng kê. S chiu c#a quá trình lai trn nh hư ng ñn tính ph c tp c#a bài toán. Nu M= N, ma tr n lai trn A ñưc xem là xác ñnh ch8n (Even-determined) hay xác ñnh (Determined), các tín hiu ngun ñưc phân tách qua bin ñi tuyn tính. Nu M > N, ma tr n A ñưc xem là trên xác ñnh (Over-determined) , có th ưc lưng các ngun qua ti ưu bình phương ti thiu hoc bin ñi tuyn tính gi nghch ño ma tr n. Nu M < N quá trình lai trn ñưc xem như dư i xác ñnh (Under-determined) và h qu là khôi ph c các tín hiu gc ph c tp hơn và luôn ñưc thc hin qua k thu t phi tuyn [2]. Nhng gi thit v môi trưng xung quanh các cm bin kho sát cũng ñng thi nh hư ng ñn tính ph c tp c#a bài toán. Phân tách mù tín hiu âm thưng ñưc liên h ñn ví d bài toán Cocktail Party [4], t c là phân tách các ting ñc l p t( vô vàn ting nói trong môi trưng âm không kim soát ñưc. Các cm bin kho sát còn b l"n ln vi b i các rung ñng tín hiu, d"n ñn ưc lưng ma tr n gii lai trn cn nh n bit ngun ñn t( nhiu hưng khác nhau ti nhiu thi ñim khác nhau c#a cùng mt ngun phát. Tng quát, bài toán phân tách mù xut phát t( thc t rt ph c tp và khó khăn, do ñó yêu cu gii hn các gi thit thc t nhm giúp bài toán có th x lý ñưc. Có ba dng gi thit cơ bn v môi trưng. Cơ bn nht là trưng hp lai trn tc thi (Instantaneous), trong ñó các tín hiu ñn các cm bin t c thi, ch! sai khác biên ñ. M rng gi thit này là xem xét có tr- gia các cm bin ñưc bit là trưng hp lai trn có tr6 (Anechoic). Tip t c m rng bng cách xem có s phn x nhiu ñưng tín hiu gia m%i ngun phát và m%i cm bin cho trưng hp lai trn có di (Echoic), ñôi khi còn ñưc xem là lai trn có ch p. M%i trưng hp có th m rng, kt hp tuyn tính vi nhi-u cng, mà thưng gi s là nhi-u tr,ng, Gauss. Trong báo cáo này, chúng tôi thc hin tách âm vi mô hình lai trn t c thi - dưi xác ñnh, có s tín hiu ngun cn ưc lưng ln hơn s tín hiu thu ñưc ti các cm bin (N>M). PHƯƠNG PHÁP Phân tích thành phàn ñ(c l-p IOA Đ ñnh nghĩa ICA, ta có th s d ng mô hình các bin thng kê. Kho sát n bin ng"u nhiên x1(t), , xn(t) là t hp tuyn tính c#a n bin ng"u nhiên s1(t), , sn(t): niniii sasasax +++= ...2211 , vi mi i = 1, , n (1) vi aij, i, j = 1, , n là các h s thc. Mô hình này mô t quá trình phát sinh lai trn c#a các thành phn sj. Các thành phn ñc l p sj Science & Technology Development, Vol 14, No.T5 2011 Trang 36 (thưng ñưc vit t,t thành ICs _ independent components) là các bin 1n (latent variables), có nghĩa là không th kho sát trc tip chúng và các h s aij cũng không bit. Tt c thông tin có ñưc ch! là các bin ng"u nhiên xi, và ta phi ưc lưng tìm c các h s lai trn aij và ICs si mà ch! s d ng thành phn lai xi. $ ñây thông tin ch! s thi gian t ñưc b& qua b i vì trong mô hình ICA cơ s , gi thit rng m%i thành phn lai xi cũng như m%i thành phn ñc l p sj là mt bin ng"u nhiên, thay vì là mt tín hiu thi gian hay chu%i thi gian. Các giá tr kho sát xi(t), ch.ng hn tín hiu micro trong bài toán cocktail-party là các m"u c#a bin ng"u nhiên này. Đng thi b& qua các thi gian trì hoãn có th xut hin trong quá trình lai trn, vì v y ñây ñưc gi là mô hình lai trn t c thi (instantaneous mixing model). ICA là phương pháp thng kê gii quyt bài toán BSS hoc phân tách tín hiu mù ( blind signal separation). Ngun “source” ñây có nghĩa là tín hiu nguyên th#y, như là âm phát ra t( m%i ngưi nói trong bài toán cocktail- party. Mù “blind” có nghĩa là bit rt ít v ma tr n lai trn, và các gi thit v tín hiu ngun hu như không ñáng k. Đ thu n tin, ta s d ng các ký hiu vectơ – ma tr n thay cho tng các phương trình trên. Theo ñó mô hình lai trn ñưc vit li như sau: x = A s (2) Đi u ki n gii h n trong ICA - Các thành phn ñc l p ñưc xem là ñc l p thng kê. - Các thành phn ñc l p phi có phân b phi Gauss. - Ma tr n lai trn là vuông. Tính nhp nhng (không xác ñnh) ca ICA - Không th xác ñnh chính xác phương sai (năng lưng) c#a các thành phn ñc l p. - Không th xác ñnh th t c#a các thành phn ñc l p. Thu-t toán tách âm dư9i xác ñnh Tách âm mù dưi xác ñnh ñưc thc hin qua hai bưc: ưc lưng ma tr n lai trn và phân tách ngun [6]. Thu t toán ưc lưng các h s ma tr n lai trn da trên cu trúc không gian, tìm các vectơ hưng trên phân b tín hiu trong ñ th phân tán h%n hp ly t( các cm bin kho sát và yêu cu các ngun phi có biu di-n ñ# thưa [4][5]. M%i hưng ñc trưng b i vectơ ct c#a ma tr n lai trn, và sau ñó kt hp các vectơ hưng tìm ñưc ñ xác ñnh ma tr n lai trn ưc lưng . Sau khi tìm ñưc ma tr n lai trn ưc lưng, vic phân tách ngun (dưi xác ñnh) tr thành bài toán gii h phương trình tuyn tính. Bài toán ñưc phát biu dưi dng bài toán ti ưu tuyn tính có li gii ti thiu chu1n L1 biu di-n thưa [2][7]. Đ ñm bo bài toán ñt t! l thành công cao vi ña dng t p d liu, ñc tính thưa c#a tín hiu ñưc ci thin qua phép bin ñi STFT, nghĩa là toàn b quá trình phân tách ngun ñưc thc hin trong min bin ñi STFT (thi gian-tn s) [8]. Kt qu sau ñó chuyn v min thi gian ban ñu. Thut toán ưc lưng ma trn lai trn 1. Bin ñi d liu kho sát trong min thi gian xi là hàng th i c#a X, i=1,,M sang min TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011 Trang 37 thi gian-tn s s d ng bin ñi STFT, các h s ñưc ño b i kurtosis. 2. Kh i to ng"u nhiên N vector hưng vi và γ mt giá tr ñ# ln. 3. Gán t(ng phn m%i ñim d liu x(t) ñn m%i vector hưng vi, s d ng phép gán mm: i t i ' t 2 it i i q it q i ' q (t) ( . (t)) , eq e γ γ − = − = ∑ x v x v % Tham s γ kim soát ñ trơn ti biên gia các vùng ñc trưng cho m%i ñưng, i tq% là các trng s c#a d liu kho sát ti thi ñim t ñi vi m%i ñưng i. 4. Tính ma tr n hip phương sai c#a d liu kho sát có trng s ñã gán ñn m%i ñưng. Biu th c ma tr n hip phương sai và các trng s ñưc biu di-n: T it t i it t q ( (t) )( (t) ) q µ µ− − = ∑ ∑ ∑ x x% % ñây µ là vector tr trung bình các hàng c#a X; Đi vi tín hiu âm, µ có trung bình không; Σi là ma tr n hip phương sai c#a d liu kho sát có trng s kt hp vi ñưng th i. 5. C p nh t hưng mi theo vectơ riêng chính c#a m%i ma tr n hip phương sai bng cách khai trin vectơ riêng c#a Σi: 1 i i ii − =∑ U Λ U ma tr n riêng Ui ch a các vectơ riêng c#a Σi và ma tr n chéo Λi ch a các tr riêng tương ng λi,, λM. Ưc lưng hưng vectơ mi là vectơ riêng chính c#a Σi : vi  umax vectơ riêng chính umax là vector riêng có tr riêng ln nht λmax. 6. C p nh t γ s d ng phương sai theo hưng trc giao hóa m%i ñưng: chn tr riêng ln nht th hai t( m%i Λi và ly nghch ño: i M 1 max( ,..., )γ λ λ← λi là tr riêng ln nht th hai c#a Σi. Tr li bưc 3 và lp li cho ñn khi vi hi t . Sau khi hi t , kt hp các vectơ hưng vi ưc lưng ñưc l p thành ma tr n lai trn ưc lưng: Â=[ v1||vN ]. Thut toán phân tách ngun Thc hin ưc lưng  Trưng hp dưi xác ñnh: Quá trình phân tách ñưc thc hin qua bài toán ti ưu, li gii ti thiu chu1n L1 cho m%i d liu kho sát trong min thưa STFT: N 1 ˆ( ) ˆarg min ( ) ω ω ∈s s  theo ˆ ˆ( ) ( )ω ω=As x Sau ñó thc hin bin ñi ngưc ISTFT chuyn v min tín hiu ban ñu: ˆ ˆ( ) (t)ω →s s Kt qu cui cùng là ma tr n ˆS kích thưc NxT vi các hàng là các ngun ưc lưng: 1 Nˆ ˆ, . . . ,s s KT QU Chúng tôi trin khai thc nghim trên PC s d ng ngôn ng Matlab thc hin tách âm trong trưng dưi xác ñnh vi mô hình lai trn t c thi. Thu các ngun âm thc nghim tc ñ ly m"u 16kHz và 22.05kHz, mã hóa PCM 16 bit, Science & Technology Development, Vol 14, No.T5 2011 Trang 38 chiu dài m%i ñon d liu âm là 10s. Thc hin lai trn âm t( các ngun âm có s/n. Mô hình lai trn là ng"u nhiên hoc t ñnh nghĩa ñ phù hp vi ñiu kin môi trưng thc t. S cm bin kho sát ñưc gi m c ti thiu là hai cm bin cho tt c thc nghim. D liu lai trn các ngun âm trong min thi gian ñưc bin ñi qua min thưa (thi gian – tn s) s d ng phép bin ñi STFT vi ca s 1024 ñim. Sau cùng, d liu trong min bin ñi ñưa qua b tách âm dưi xác ñnh vi thu t toán ñã trình bày trong phn 4. Kt qu là các âm phân tách ñc l p ñưc ñánh giá khách quan vi các t! s SDR, SIR, SAR [6], và ñánh giá ch# quan qua vic quan sát dng sóng, nghe âm phát li loa so vi ngun âm gc. Th3c nghim 1 (ngu!n âm gc: ba ging n8) Thc hin phân tách hai h%n hp lai trn t c thi t( ba ngun âm ñc l p ñc trưng ging n. Kt qu nh n ñưc rt tt vi các t! s ñánh giá khách quan cho t(ng ngun âm ưc lưng: T! s/âm ưc lưng se1 (s1) se2 (s2) se3 (s3) SDR (dB) 12,1 9,2 10,8 SIR (dB) 13,5 12,9 12,5 SAR (dB) 12,4 9,4 11,3 V ñánh giá ch# quan (hình 2), dng sóng tín hiu âm ñưc khôi ph c ñúng vi ngun âm gc và âm nghe ñưc phân bit t(ng ngun rõ ràng. Th t tương ng các ngun âm se1 là s1; se2 là s2, và se3 là s3. Lưu ý rng ñc trưng v biên ñ, pha và th t các ngun âm ưc lưng có th không ñúng vi ngun âm gc, ñây cũng chính là gii hn c#a ICA [1]. Th3c nghim 2 (ngu!n âm gc: hai ging nói và m(t nhc) Thc nghim 2 thc hin vi h%n hp các ñc trưng khác nhau: hai ging nói s1, s2 và mt nhc s3. Các t! s ñánh giá khách quan cho t(ng ngun âm ưc lưng: T! s/âm ưc lưng se1 (s2) se2 (s1) se3 (s3) SDR (dB) 11,2 11,9 14,1 SIR (dB) 14,1 14,1 14,8 SAR (dB) 11,3 12,1 14,3 Kt qu ñánh giá khách quan và ch# quan (Hình 3) cho thy vic phân tách tt mc dù h%n hp là lai trn các âm có ñc trưng khác nhau, trong ñó ngun âm nhc ưc lưng se3 có cht lưng rt tt. TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011 Trang 39 Ngun âm gc s1, s2, s3 Ngun âm ưc lưng se1, se2, se3 Đ th phân tán (thi gian) H%n hp lai trn x1, x2 Đ th phân tán (thưa) 0 .4 1 5 8 0 .7 8 1 5 0 .9 6 4 6 0 .9 4 2 5 0 .9 3 1 4 0 .7 4 0 2   =     A 0 .3 4 1 7 0 .9 3 9 6 0 .7 9 1 7 0 .9 3 9 8 0 .7 6 8 7 0 .6 1 0 9   =     A e Hình 2. Kt qu dng sóng, ñ th phân tán c#a h%n hp trong thc nghim 1 x2 x1 x1 x2 x1 x2 Science & Technology Development, Vol 14, No.T5 2011 Trang 40 Ngun âm gc s1, s2, s3 Ngun âm ưc lưng se1, se2, se3 Đ th phân tán (thi gian) H%n hp lai trn x1, x2 Đ th phân tán (thưa) 0 . 3 1 0 2 0 . 3 2 4 5 0 . 3 5 0 3 0 . 3 5 9 2 0 . 4 0 4 1 0 . 2 6 8 9   =     A 0 . 6 2 6 1 0 . 6 5 1 9 0 . 7 9 3 1 0 . 7 7 9 8 0 . 7 5 8 3 0 . 6 0 9 1   =     A e Hình 3. Kt qu dng sóng, ñ th phân tán c#a h%n hp trong thc nghim 2 x2 x1 x1 x2 x1 x2 TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011 Trang 41 KT LUN Như v y, chúng tôi ñã thc hin thành công ng d ng k thu t ICA gii quyt bài toán BSS trong vic tách âm. Các thc nghim ñưc tin hành vi các ñc trưng âm khác nhau như ngun ging nam, ngun ñc trưng ging n, có ngun là nhc không li. Điu này cho thy s c mnh và tính hiu qu c#a k thu t ICA trong ng d ng tách âm. Các kt qu thc nghim ñưc ñánh giá khách quan vi các t! s S/N và ch# quan bng vic quan sát dng sóng tín hiu, nghe âm phát li ñu ñt kt qu tt. Đng thi, ñiu kin ràng buc v s ngun bng s cm bin kho sát trong mô hình ICA cơ s ñã ñưc tháo g5 minh ch ng qua các thc nghim có s ngun âm ln hơn s tín hiu h%n hơp thu ñưc ti cm bin (micro) trong trưng hp dưi xác ñnh. Tuy nhiên, v"n còn rt nhiu ñiu kin ràng buc và gii hn khác cn ñưc nghiên c u ñ giúp hoàn thin k thu t ICA còn rt mi m6 này. K thu t ICA là phương pháp x lý tín hiu da trên ñc trưng thng kê, cho phép x lý nhiu ngun tín hiu thay vì ch! mt ngun tín hiu ñơn thun da trên ñc tính ph. Th t s phương pháp ICA ñã tr thành mt công c phân tích thng kê mi bên cnh các k thu t truyn thng như PCA, FCA Các k thu t v phân tích ngun mù này ñã có nhiu nghiên c u phát trin và ch,c rng các gii hn cũng như ñiu kin ràng buc c#a mô hình ICA cơ s s* ñưc gii quyt trong mt tương lai gn. BLIND SOURCE SEPARATION (BSS) APPLIED TO SOUND IN VARIOUS CONDITIONS Truong Tan Quang, Tran Quang Huy, Nguyen Huu Phuong University of Science, VNU-HCM ABSTRACT: Our ears often simultaneously receive various sound sources (speech, music, noise . . .), but we can still listen to the intended sound. A system of speech recognition must be able to achieve the same intelligent level. The problem is that we receive many mixed (combined) signals from many different source signals, and would like to recover them separately. This is the problem of Blind Source Separation (BSS). In the last decade or so a method has been developed to solve the above problem effectively, that is the Independent Component Analysis (ICA). There are many ICA algorithms for different applications. This report describes our application to sound separation when there are more sources than mixtures (underdetermined case). The results were quite good. Key words: blind source separation, independent component analysis, underdetermined. Science & Technology Development, Vol 14, No.T5 2011 Trang 42 TÀI LIU THAM KHO [1]. A. Hyvarinen, Karhunen, J., and Oja, E. Independent Component Analysis. John Wiley & Sons, Inc, (2001). [2]. A. Cichocki, S. Amari, Adaptive Blind Signal and Image Processing. John Wiley & Sons, (2002). [3]. T-Won. Lee, H. Sawada, Blind Speech Separation. Springer, ISBN 978-1-4020- 6478-4, (2007). [4]. B. A. Pearlumutter, Asari and Zador, Sparse Representations for the Cocktail Party Problem, CVS: hrtf source.tex 1.326, hrtf-1ear-jns.pdf, (2006). [5]. P. Bofil, M. Zibulevsky. Underdetermined blind source separation using sparserepresentations. Signal Processing, 81, 2353–2362, (2001). [6]. P. D. O’Grady, Sparse Separation of Under-Determined Speech Mixture. Department of Computer Science National University of Ireland, Maynooth, www.hamilton.ie/publications/ogrady20 07_phd.pdf, (2007). [7]. Takigawa, M. Kudo, A. Nakamura, J. Toyama. On the Minimum L1-Norm Signal recovery in Underdetermined Source Separation. Springer-Verlag, (2004). [8]. P. Bofill, M. Zibulevsky. Blind separation of more sources than mixtures using the sparsity of the short- time fourier transform. 2nd International Workshop on Independent Component Analysis and Blind Signal Separation, pages 87–92, Helsinki, Finland, June 19– 20 (2000).

Các file đính kèm theo tài liệu này:

  • pdf8651_30703_1_pb_4106_2034102.pdf