ABSTRACT: Our ears often simultaneously receive various sound sources (speech, music, noise
. . .), but we can still listen to the intended sound. A system of speech recognition must be able to
achieve the same intelligent level. The problem is that we receive many mixed (combined) signals from
many different source signals, and would like to recover them separately. This is the problem of Blind
Source Separation (BSS). In the last decade or so a method has been developed to solve the above
problem effectively, that is the Independent Component Analysis (ICA). There are many ICA algorithms
for different applications. This report describes our application to sound separation when there are
more sources than mixtures (underdetermined case). The results were quite good
9 trang |
Chia sẻ: yendt2356 | Lượt xem: 532 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Tách nguồn mù (BSS) áp dụng cho âm thanh trong một số điều kiện khác nhau, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Science & Technology Development, Vol 14, No.T5 2011
Trang 34
TÁCH NGU4N MÙ (BSS) ÁP D#NG CHO ÂM THANH TRONG M5T S ĐI U
KIN KHÁC NHAU
Trương T6n Quang, Trn Quang Huy, Nguy7n H8u Phương
Trưng Đi hc Khoa hc T nhiên, ĐHQG-HCM
(Bài nhn ngày 21 tháng 03 năm 2011, hoàn chnh sa cha ngày 23 tháng 04 năm 2012)
TÓM T
T: Tai ta thưng ñng thi tip nhn nhiu ngun âm (ting nói, âm nhc, nhi6u)
khác nhau nhưng ta v7n có th l!ng nghe ngun âm ch ñnh. Mt h thng nhn dng ting cn ñt
ñn kh năng thông minh như vy. Bài toán là t$ nhiu tín hiu ñã trn l7n ta mun khôi phc các tín
hiu ngun riêng r5. Đây là bài toán tách ngun mù (Blind Source Separation - BSS). Trong hơn chc
năm qua, ngưi ta ñã phát trin mt phương pháp m
i giúp gii bài toán nêu trên r#t hiu qu, ñó là
phân tích thành phn ñc lp (Independent Component Analysis – ICA). Có nhiu thut toán ICA cho
các ng dng khác nhau. Báo cáo trình bày ng dng ICA cho tách âm trưng hp s ngun nhiu hơn
s trn (dư
i xác ñnh). Chúng tôi thc nghim trên nhiu loi tín hiu. Kt qu r#t tt.
T khóa: tách mgun mù, phân tích thành phn ñc lp, dư
i xác ñnh.
M ĐU
Bài toán phân tách ngun mù BSS (Blind
Source Separation) ñang ñưc quan tâm nghiên
c u và ng d
ng trong nhiu lĩnh vc x lý tín
hiu khác nhau: tách âm, nhn dng, tín hiu y
sinh [1][2][3]. Bài toán BSS cho phép ưc
lưng li các tín hiu ngun nguyên bn mà
ch! da vào nhng d liu h%n hp thu ñưc ti
các cm bin kho sát và ñc trưng c#a kênh
truyn cũng như các tín hiu ngun gn như
không bit (Hình 1).
Hình 1. M
c ñích c#a phân tách ngun mù là ch! s d
ng tín hiu h%n hp lai trn ñ tìm li tín hiu gc
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011
Trang 35
Tng quát bài toán phân tách ngun m# -
BSS ñưc phát biu như sau: cho M h%n hp
lai trn tuyn tính t( N ngun to qua ma trn
lai trn M x N không bit trưc A. Bài toán
phân tách ngun mù BSS yêu cu phân tích cu
trúc d liu kho sát và tách các ngun gc t(
h%n hp lai trn này. Khi M ≥ N, có th thc
hin bng cách xây dng ma trn gii lai trn
W, vi W=A-1. Đ ñm bo phân tách ñưc,
các ñiu kin cn tuân theo ñnh lý Darmois
[1]: các ngun là phi Gauss và ñc lp thng
kê. S chiu c#a quá trình lai trn nh hư ng
ñn tính ph c tp c#a bài toán. Nu M= N, ma
trn lai trn A ñưc xem là xác ñnh ch8n
(Even-determined) hay xác ñnh (Determined),
các tín hiu ngun ñưc phân tách qua bin ñi
tuyn tính. Nu M > N, ma trn A ñưc xem là
trên xác ñnh (Over-determined) , có th ưc
lưng các ngun qua ti ưu bình phương ti
thiu hoc bin ñi tuyn tính gi nghch ño
ma trn. Nu M < N quá trình lai trn ñưc
xem như dư
i xác ñnh (Under-determined) và
h qu là khôi ph
c các tín hiu gc ph c tp
hơn và luôn ñưc thc hin qua k thut phi
tuyn [2].
Nhng gi thit v môi trưng xung quanh
các cm bin kho sát cũng ñng thi nh
hư ng ñn tính ph c tp c#a bài toán. Phân
tách mù tín hiu âm thưng ñưc liên h ñn ví
d
bài toán Cocktail Party [4], t c là phân tách
các ting ñc lp t( vô vàn ting nói trong môi
trưng âm không kim soát ñưc. Các cm
bin kho sát còn b l"n ln vi b i các rung
ñng tín hiu, d"n ñn ưc lưng ma trn gii
lai trn cn nhn bit ngun ñn t( nhiu
hưng khác nhau ti nhiu thi ñim khác nhau
c#a cùng mt ngun phát. Tng quát, bài toán
phân tách mù xut phát t( thc t rt ph c tp
và khó khăn, do ñó yêu cu gii hn các gi
thit thc t nhm giúp bài toán có th x lý
ñưc. Có ba dng gi thit cơ bn v môi
trưng. Cơ bn nht là trưng hp lai trn tc
thi (Instantaneous), trong ñó các tín hiu ñn
các cm bin t c thi, ch! sai khác biên ñ. M
rng gi thit này là xem xét có tr- gia các
cm bin ñưc bit là trưng hp lai trn có tr6
(Anechoic). Tip t
c m rng bng cách xem
có s phn x nhiu ñưng tín hiu gia m%i
ngun phát và m%i cm bin cho trưng hp lai
trn có di (Echoic), ñôi khi còn ñưc xem là
lai trn có chp. M%i trưng hp có th m
rng, kt hp tuyn tính vi nhi-u cng, mà
thưng gi s là nhi-u tr,ng, Gauss.
Trong báo cáo này, chúng tôi thc hin tách
âm vi mô hình lai trn t c thi - dưi xác
ñnh, có s tín hiu ngun cn ưc lưng ln
hơn s tín hiu thu ñưc ti các cm bin
(N>M).
PHƯƠNG PHÁP
Phân tích thành phàn ñ(c l-p IOA
Đ ñnh nghĩa ICA, ta có th s d
ng mô
hình các bin thng kê. Kho sát n bin ng"u
nhiên x1(t), , xn(t) là t hp tuyn tính c#a n
bin ng"u nhiên s1(t), , sn(t):
niniii sasasax +++= ...2211 , vi
mi i = 1, , n (1)
vi aij, i, j = 1, , n là các h s thc. Mô
hình này mô t quá trình phát sinh lai trn c#a
các thành phn sj. Các thành phn ñc lp sj
Science & Technology Development, Vol 14, No.T5 2011
Trang 36
(thưng ñưc vit t,t thành ICs _ independent
components) là các bin 1n (latent variables),
có nghĩa là không th kho sát trc tip chúng
và các h s aij cũng không bit. Tt c thông
tin có ñưc ch! là các bin ng"u nhiên xi, và ta
phi ưc lưng tìm c các h s lai trn aij và
ICs si mà ch! s d
ng thành phn lai xi.
$ ñây thông tin ch! s thi gian t ñưc b&
qua b i vì trong mô hình ICA cơ s , gi thit
rng m%i thành phn lai xi cũng như m%i thành
phn ñc lp sj là mt bin ng"u nhiên, thay vì
là mt tín hiu thi gian hay chu%i thi gian.
Các giá tr kho sát xi(t), ch.ng hn tín hiu
micro trong bài toán cocktail-party là các m"u
c#a bin ng"u nhiên này. Đng thi b& qua các
thi gian trì hoãn có th xut hin trong quá
trình lai trn, vì vy ñây ñưc gi là mô hình
lai trn t c thi (instantaneous mixing model).
ICA là phương pháp thng kê gii quyt bài
toán BSS hoc phân tách tín hiu mù ( blind
signal separation). Ngun “source” ñây có
nghĩa là tín hiu nguyên th#y, như là âm phát
ra t( m%i ngưi nói trong bài toán cocktail-
party. Mù “blind” có nghĩa là bit rt ít v ma
trn lai trn, và các gi thit v tín hiu ngun
hu như không ñáng k.
Đ thun tin, ta s d
ng các ký hiu vectơ –
ma trn thay cho tng các phương trình trên.
Theo ñó mô hình lai trn ñưc vit li như sau:
x = A s (2)
Điu ki
n gii h n trong ICA
- Các thành phn ñc lp ñưc xem là ñc
lp thng kê.
- Các thành phn ñc lp phi có phân b phi
Gauss.
- Ma trn lai trn là vuông.
Tính nhp nhng (không xác ñnh) ca ICA
- Không th xác ñnh chính xác phương sai
(năng lưng) c#a các thành phn ñc lp.
- Không th xác ñnh th t c#a các thành
phn ñc lp.
Thu-t toán tách âm dư9i xác ñnh
Tách âm mù dưi xác ñnh ñưc thc hin
qua hai bưc: ưc lưng ma trn lai trn và
phân tách ngun [6]. Thut toán ưc lưng các
h s ma trn lai trn da trên cu trúc không
gian, tìm các vectơ hưng trên phân b tín hiu
trong ñ th phân tán h%n hp ly t( các cm
bin kho sát và yêu cu các ngun phi có
biu di-n ñ# thưa [4][5]. M%i hưng ñc trưng
b i vectơ ct c#a ma trn lai trn, và sau ñó kt
hp các vectơ hưng tìm ñưc ñ xác ñnh ma
trn lai trn ưc lưng . Sau khi tìm ñưc ma
trn lai trn ưc lưng, vic phân tách ngun
(dưi xác ñnh) tr thành bài toán gii h
phương trình tuyn tính. Bài toán ñưc phát
biu dưi dng bài toán ti ưu tuyn tính có li
gii ti thiu chu1n L1 biu di-n thưa [2][7]. Đ
ñm bo bài toán ñt t! l thành công cao vi
ña dng tp d liu, ñc tính thưa c#a tín hiu
ñưc ci thin qua phép bin ñi STFT, nghĩa
là toàn b quá trình phân tách ngun ñưc thc
hin trong min bin ñi STFT (thi gian-tn
s) [8]. Kt qu sau ñó chuyn v min thi
gian ban ñu.
Thut toán ưc lưng ma trn lai trn
1. Bin ñi d liu kho sát trong min thi
gian xi là hàng th i c#a X, i=1,,M sang min
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011
Trang 37
thi gian-tn s s d
ng bin ñi STFT, các h
s ñưc ño b i kurtosis.
2. Kh i to ng"u nhiên N vector hưng vi và
γ mt giá tr ñ# ln.
3. Gán t(ng phn m%i ñim d liu x(t) ñn
m%i vector hưng vi, s d
ng phép gán mm:
i t
i ' t
2
it i i
q
it q
i '
q (t) ( . (t)) ,
eq
e
γ
γ
−
= −
=
∑
x v x v
%
Tham s γ kim soát ñ trơn ti biên gia các
vùng ñc trưng cho m%i ñưng, i tq% là các trng
s c#a d liu kho sát ti thi ñim t ñi vi
m%i ñưng i.
4. Tính ma trn hip phương sai c#a d liu
kho sát có trng s ñã gán ñn m%i ñưng.
Biu th c ma trn hip phương sai và các trng
s ñưc biu di-n:
T
it
t
i
it
t
q ( (t) )( (t) )
q
µ µ− −
=
∑
∑
∑
x x%
%
ñây µ là vector tr trung bình các hàng c#a
X; Đi vi tín hiu âm, µ có trung bình không;
Σi là ma trn hip phương sai c#a d liu kho
sát có trng s kt hp vi ñưng th i.
5. Cp nht hưng mi theo vectơ riêng
chính c#a m%i ma trn hip phương sai bng
cách khai trin vectơ riêng c#a Σi:
1
i i ii
−
=∑ U Λ U
ma trn riêng Ui ch a các vectơ riêng c#a Σi
và ma trn chéo Λi ch a các tr riêng tương ng
λi,, λM. Ưc lưng hưng vectơ mi là vectơ
riêng chính c#a Σi : vi umax
vectơ riêng chính umax là vector riêng có tr
riêng ln nht λmax.
6. Cp nht γ s d
ng phương sai theo hưng
trc giao hóa m%i ñưng: chn tr riêng ln
nht th hai t( m%i Λi và ly nghch ño:
i M
1
max( ,..., )γ λ λ←
λi là tr riêng ln nht th hai c#a Σi. Tr li
bưc 3 và lp li cho ñn khi vi hi t
.
Sau khi hi t
, kt hp các vectơ hưng vi
ưc lưng ñưc lp thành ma trn lai trn ưc
lưng: Â=[ v1||vN ].
Thut toán phân tách ngun
Thc hin ưc lưng Â
Trưng hp dưi xác ñnh: Quá trình phân
tách ñưc thc hin qua bài toán ti ưu, li gii
ti thiu chu1n L1 cho m%i d liu kho sát
trong min thưa STFT:
N 1
ˆ( )
ˆarg min ( )
ω
ω
∈s
s
theo ˆ ˆ( ) ( )ω ω=As x
Sau ñó thc hin bin ñi ngưc ISTFT
chuyn v min tín hiu ban ñu:
ˆ ˆ( ) (t)ω →s s
Kt qu cui cùng là ma trn ˆS kích thưc
NxT vi các hàng là các ngun ưc lưng:
1 Nˆ ˆ, . . . ,s s
KT QU
Chúng tôi trin khai thc nghim trên PC s
d
ng ngôn ng Matlab thc hin tách âm trong
trưng dưi xác ñnh vi mô hình lai trn t c
thi.
Thu các ngun âm thc nghim tc ñ ly
m"u 16kHz và 22.05kHz, mã hóa PCM 16 bit,
Science & Technology Development, Vol 14, No.T5 2011
Trang 38
chiu dài m%i ñon d liu âm là 10s. Thc
hin lai trn âm t( các ngun âm có s/n. Mô
hình lai trn là ng"u nhiên hoc t ñnh nghĩa
ñ phù hp vi ñiu kin môi trưng thc t.
S cm bin kho sát ñưc gi m c ti thiu
là hai cm bin cho tt c thc nghim.
D liu lai trn các ngun âm trong min thi
gian ñưc bin ñi qua min thưa (thi gian –
tn s) s d
ng phép bin ñi STFT vi ca s
1024 ñim. Sau cùng, d liu trong min bin
ñi ñưa qua b tách âm dưi xác ñnh vi thut
toán ñã trình bày trong phn 4. Kt qu là các
âm phân tách ñc lp ñưc ñánh giá khách
quan vi các t! s SDR, SIR, SAR [6], và ñánh
giá ch# quan qua vic quan sát dng sóng, nghe
âm phát li loa so vi ngun âm gc.
Th3c nghim 1 (ngu!n âm gc: ba ging n8)
Thc hin phân tách hai h%n hp lai trn t c
thi t( ba ngun âm ñc lp ñc trưng ging
n. Kt qu nhn ñưc rt tt vi các t! s ñánh
giá khách quan cho t(ng ngun âm ưc lưng:
T! s/âm ưc lưng se1 (s1) se2 (s2) se3 (s3)
SDR (dB) 12,1 9,2 10,8
SIR (dB) 13,5 12,9 12,5
SAR (dB) 12,4 9,4 11,3
V ñánh giá ch# quan (hình 2), dng sóng tín
hiu âm ñưc khôi ph
c ñúng vi ngun âm
gc và âm nghe ñưc phân bit t(ng ngun rõ
ràng. Th t tương ng các ngun âm se1 là s1;
se2 là s2, và se3 là s3. Lưu ý rng ñc trưng v
biên ñ, pha và th t các ngun âm ưc lưng
có th không ñúng vi ngun âm gc, ñây cũng
chính là gii hn c#a ICA [1].
Th3c nghim 2 (ngu!n âm gc: hai ging
nói và m(t nhc)
Thc nghim 2 thc hin vi h%n hp các
ñc trưng khác nhau: hai ging nói s1, s2 và mt
nhc s3. Các t! s ñánh giá khách quan cho t(ng
ngun âm ưc lưng:
T! s/âm ưc lưng se1 (s2) se2 (s1) se3 (s3)
SDR (dB) 11,2 11,9 14,1
SIR (dB) 14,1 14,1 14,8
SAR (dB) 11,3 12,1 14,3
Kt qu ñánh giá khách quan và ch# quan
(Hình 3) cho thy vic phân tách tt mc dù
h%n hp là lai trn các âm có ñc trưng khác
nhau, trong ñó ngun âm nhc ưc lưng se3 có
cht lưng rt tt.
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011
Trang 39
Ngun âm gc s1, s2, s3 Ngun âm ưc lưng se1, se2, se3
Đ th phân tán (thi gian) H%n hp lai trn x1, x2 Đ th phân tán (thưa)
0 .4 1 5 8 0 .7 8 1 5 0 .9 6 4 6
0 .9 4 2 5 0 .9 3 1 4 0 .7 4 0 2
=
A
0 .3 4 1 7 0 .9 3 9 6 0 .7 9 1 7
0 .9 3 9 8 0 .7 6 8 7 0 .6 1 0 9
=
A e
Hình 2. Kt qu dng sóng, ñ th phân tán c#a h%n hp trong thc nghim 1
x2
x1
x1
x2
x1
x2
Science & Technology Development, Vol 14, No.T5 2011
Trang 40
Ngun âm gc s1, s2, s3 Ngun âm ưc lưng se1, se2, se3
Đ th phân tán (thi gian) H%n hp lai trn x1, x2 Đ th phân tán (thưa)
0 . 3 1 0 2 0 . 3 2 4 5 0 . 3 5 0 3
0 . 3 5 9 2 0 . 4 0 4 1 0 . 2 6 8 9
=
A
0 . 6 2 6 1 0 . 6 5 1 9 0 . 7 9 3 1
0 . 7 7 9 8 0 . 7 5 8 3 0 . 6 0 9 1
=
A e
Hình 3. Kt qu dng sóng, ñ th phân tán c#a h%n hp trong thc nghim 2
x2
x1
x1
x2
x1
x2
TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ T5 2011
Trang 41
KT LUN
Như vy, chúng tôi ñã thc hin thành công
ng d
ng k thut ICA gii quyt bài toán BSS
trong vic tách âm. Các thc nghim ñưc tin
hành vi các ñc trưng âm khác nhau như
ngun ging nam, ngun ñc trưng ging n,
có ngun là nhc không li. Điu này cho thy
s c mnh và tính hiu qu c#a k thut ICA
trong ng d
ng tách âm. Các kt qu thc
nghim ñưc ñánh giá khách quan vi các t! s
S/N và ch# quan bng vic quan sát dng sóng
tín hiu, nghe âm phát li ñu ñt kt qu tt.
Đng thi, ñiu kin ràng buc v s ngun
bng s cm bin kho sát trong mô hình ICA
cơ s ñã ñưc tháo g5 minh ch ng qua các
thc nghim có s ngun âm ln hơn s tín
hiu h%n hơp thu ñưc ti cm bin (micro)
trong trưng hp dưi xác ñnh. Tuy nhiên, v"n
còn rt nhiu ñiu kin ràng buc và gii hn
khác cn ñưc nghiên c u ñ giúp hoàn thin
k thut ICA còn rt mi m6 này.
K thut ICA là phương pháp x lý tín hiu
da trên ñc trưng thng kê, cho phép x lý
nhiu ngun tín hiu thay vì ch! mt ngun tín
hiu ñơn thun da trên ñc tính ph. Tht s
phương pháp ICA ñã tr thành mt công c
phân tích thng kê mi bên cnh các k thut
truyn thng như PCA, FCA Các k thut
v phân tích ngun mù này ñã có nhiu nghiên
c u phát trin và ch,c rng các gii hn cũng
như ñiu kin ràng buc c#a mô hình ICA cơ
s s* ñưc gii quyt trong mt tương lai gn.
BLIND SOURCE SEPARATION (BSS) APPLIED TO SOUND IN VARIOUS
CONDITIONS
Truong Tan Quang, Tran Quang Huy, Nguyen Huu Phuong
University of Science, VNU-HCM
ABSTRACT: Our ears often simultaneously receive various sound sources (speech, music, noise
. . .), but we can still listen to the intended sound. A system of speech recognition must be able to
achieve the same intelligent level. The problem is that we receive many mixed (combined) signals from
many different source signals, and would like to recover them separately. This is the problem of Blind
Source Separation (BSS). In the last decade or so a method has been developed to solve the above
problem effectively, that is the Independent Component Analysis (ICA). There are many ICA algorithms
for different applications. This report describes our application to sound separation when there are
more sources than mixtures (underdetermined case). The results were quite good.
Key words: blind source separation, independent component analysis, underdetermined.
Science & Technology Development, Vol 14, No.T5 2011
Trang 42
TÀI LIU THAM KHO
[1]. A. Hyvarinen, Karhunen, J., and Oja, E.
Independent Component Analysis. John
Wiley & Sons, Inc, (2001).
[2]. A. Cichocki, S. Amari, Adaptive Blind
Signal and Image Processing. John Wiley
& Sons, (2002).
[3]. T-Won. Lee, H. Sawada, Blind Speech
Separation. Springer, ISBN 978-1-4020-
6478-4, (2007).
[4]. B. A. Pearlumutter, Asari and Zador,
Sparse Representations for the Cocktail
Party Problem, CVS: hrtf source.tex
1.326,
hrtf-1ear-jns.pdf, (2006).
[5]. P. Bofil, M. Zibulevsky.
Underdetermined blind source separation
using sparserepresentations. Signal
Processing, 81, 2353–2362, (2001).
[6]. P. D. O’Grady, Sparse Separation of
Under-Determined Speech Mixture.
Department of Computer Science
National University of Ireland,
Maynooth,
www.hamilton.ie/publications/ogrady20
07_phd.pdf, (2007).
[7]. Takigawa, M. Kudo, A. Nakamura, J.
Toyama. On the Minimum L1-Norm
Signal recovery in Underdetermined
Source Separation. Springer-Verlag,
(2004).
[8]. P. Bofill, M. Zibulevsky. Blind
separation of more sources than
mixtures using the sparsity of the short-
time fourier transform. 2nd International
Workshop on Independent Component
Analysis and Blind Signal Separation,
pages 87–92, Helsinki, Finland, June 19–
20 (2000).
Các file đính kèm theo tài liệu này:
- 8651_30703_1_pb_4106_2034102.pdf