Phát hiện khoảng lặng
Cải thiện chất lượng tín hiệu tiếng nói (giảm
nhiễu)
Tiếng nói được phát âm với thời hạn và
nhịp điệu khác
Mô hình nhận dạng
– Mô hình Markov ẩn (Hidden Markov Model:
HMM)
– Mạng nơ-ron
30 trang |
Chia sẻ: nguyenlam99 | Lượt xem: 1173 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tài liệu môn học Hệ điều hành - Xử lý tiếng nói, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
11
Trịnh Văn Loan
Bộ môn Kỹ thuật Máy tính
Khoa CNTT, ĐHBK Hà Nội
XỬ LÝ TIẾNG NÓI
2
Tài liệu tham khảo
La parole et son traitement automatique
Calliope, Masson, 1989
Traitement de la parole
Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987
Fundamentals of Speech Signal Processing
Saito S., Nakata K. , Academic Press, 1985
Digital Processing of Speech Signals
Lawrence R. Rabiner, Ronald W. Schafer, Prentice-Hall .1978
Discrete-Time Processing of Speech Signals
John R. Deller, John G. Proakis, Hansen John H. L. 1999
Tiếng Việt hiện đại (Ngữ âm, ngữ pháp, phong cách)
Nguyễn Hữu Quỳnh, Hà Nội, 1994
Dẫn luận Ngôn ngữ học
Nguyễn Thiện Giáp, Đoàn Thiện Thuật , Nguyễn Minh Thuyết, Hà Nội, 1994
3
Nội dung
1. Một số khái niệm cơ bản
2. Xử lý tín hiệu tiếng nói
3. Mã hoá tiếng nói
4. Tổng hợp tiếng nói
5. Nhận dạng tiếng nói
4
Xử lý thông tin chứa trong tín hiệu tiếng nói
nhằm truyền, lưu trữ tín hiệu này hoặc tổng
hợp, nhận dạng tiếng nói.
Các nghiên cứu được tiến hành để xử lý
tiếng nói yêu cầu những hiểu biết trên nhiều
lĩnh vực ngày càng đa dạng: từ ngữ âm và
ngôn ngữ học cho đến xử lý tín hiệu...
1. Một số khái niệm cơ bản
25
Mục đích
Mã hoá một cách có hiệu quả tín hiệu
tiếng nói để truyền và lưu trữ tiếng nói.
Tổng hợp và nhận dạng tiếng nói tiến
tới giao tiếp người-máy bằng tiếng nói.
Tất cả các ứng dụng của xử lý tiếng
nói đều cần phải dựa trên các kết quả
của phân tích tiếng nói
6
Một số khái niệm cơ bản
Phân biệt tiếng nói và âm thanh
Tiếng nói được phân biệt với các âm
thanh khác bởi các đặc tính âm học có
nguồn gốc từ cơ chế tạo tiếng nói.
Có 2 loại nguồn âm
– tuần hoàn (dây thanh rung)
– tạp âm (dây thanh không rung)
7
Bộ máy phát âm
8
Bộ máy phát âm
39
Bộ máy phát âm
NASAL CAVITY: Khoang mũi
SOFT PALATE: Vòm miệng mềm
EPIGLOTTIS: Nắp thanh quản
VOCAL FOLDS (CORDS): Dây thanh
OESOPHAGUS: Thực quản
TRACHEA: Khí quản
PHARYNX: Họng
10
Sơ đồ khối bộ máy phát âm
11
Thanh môn
Dây thanh
Thanh môn
12
1. Mét sè kh¸i niÖm c¬ b¶n
A. Glotte pendant la respiration B. Glotte pour la phonation
1. Glotte 2. Cordes vocales 3. Epiglotte 5. Cartilages aryténoïdes
Thanh môn
Ở các vị trí hít, thở,phát âm, nói thì thào
413
Dây thanh trong một chu kỳ
dao động
14
Biểu diễn tín hiệu tiếng nói
Dạng sóng theo thời gian
15
Tần số lấy mẫu: 8kHz, F1= 11025 Hz,
2F1, 4F1 (16kHz, 10kHz)
Số bit/mẫu: 8,16
Mono, Stereo
File WAV
16
Biểu diễn tín hiệu tiếng nói
Phổ tín hiệu tiếng nói
517
Biểu diễn tín hiệu tiếng nói
Spectrogram (Sonagram)
18
Biểu diễn tín hiệu tiếng nói
19
Biểu diễn tín hiệu tiếng nói
20
Biểu diễn tín hiệu tiếng nói
Thu bằng micro khác loại
621
Biểu diễn tín hiệu tiếng nói
Hai giọng khác nhau cho cùng một âm
22
Biểu diễn tín hiệu tiếng nói
Cùng người nói, cùng một âm
23
Năng lượng, tỷ lệ biến thiên qua giá trị không
0 0.5 1 1.5 2 2.5 3 3.5
-0.6
-0.4
-0.2
0
0.2
0.4
a
m
p
l
i
t
u
d
e
file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1
Signal
0.5 1 1.5 2 2.5 3 3.5
1
2
3
4
s
h
o
r
t
-
t
i
m
e
e
n
e
r
g
y En
0.5 1 1.5 2 2.5 3 3.5
5
10
15
s
h
o
r
t
-
t
i
m
e
m
a
g
n
i
t
u
d
e
Mn
0.5 1 1.5 2 2.5 3 3.5
0
20
40
60
80
time in seconds
z
e
r
o
c
r
o
s
s
i
n
g
r
a
t
e ZC
24
Tạo âm hữu thanh
Formant và antiformant
725
Tạo âm vô thanh
26
Một số đặc điểm ngữ âm
tiếng Việt
Đơn âm tiết
Có thanh điệu (6), biến đổi thanh điệu
kèm theo biến đổi nghĩa
Không biến đổi hình thái
27
1 i,y ý chí
2 ê ê chề
3 e e dè
4 a a ha
5 ă mắt
6 ơ bơ phờ
7 â ân cần
8 ư từ từ
9 ô ôtô
10 o co ro
11 u lù mù
1 ia,yê,ya,iê
(đọc ia, yê)
kia kìa, yêu
kiều, khuya, tiên
tiến
2 ua,uô
(đọc ua)
tua rua, luôn
3 ưa,ươ
(đọc ưa)
lưa thưa,
lượt
Một số đặc điểm ngữ âm
tiếng Việt
Hệ thống âm vị: 14 nguyên âm (11
nguyên âm đơn, 3 nguyên âm đôi, 22 phụ âm)
28
1 b bồng bềnh
2 p ốp ép
3 v vẩn vơ
4 ph phôi pha
5 m mơ màng
6 đ đất đai
7 t tin tưởng
8 th thơ thẩn
9 d,gi duyên, giữ
10 n nóng
11 l long lanh
12 tr trồng
13 s sinh viên
14 r rừng
15 ch chông
16 nh nhọc
17 ng,ngh ngô nghê
18 c,k,q con,kẹt,qua
19 kh khúc
20 g,gh gồ ghề
21 h hả hê
22 x xa xôi
Một số đặc điểm ngữ âm
tiếng Việt
Hệ thống âm vị: 22 phụ âm
829
Độ nâng
Hàng
cao trung bình thấp
trước i e e
ơ â
o
giữa ư a ă
sau u ô
Một số đặc điểm ngữ âm
tiếng Việt
Phân loại nguyên âm theo độ nâng
của lưỡi và chuyển động của lưỡi
30
Hàng
Độ mở
hàng trước
hàng sau không
tròn môi
hàng sau
tròn môi
hẹp i ia,yê,ya,iê ư ưa
ơ â
rộng a ă
u ua
hơi hẹp ê ô
hơi rộng e o
Một số đặc điểm ngữ âm
tiếng Việt
Phân loại nguyên âm theo độ mở của
miệng và chuyển động của lưỡi
31
th
Vô
thanh p t tr ch c,k,qu
Hữu
thanh b đ
m n nh ng,ngh
ph x s kh h
v d,gi r g
l
Xát
Bật hơi
Vang mũi
Vô thanh
Hữu thanh
Vang bên
Ồn
Không bật
hơi
Ồn
Cuối lưỡi Họng
Phương thức cấu âm
Vị trí cấu âm Đầu lưỡi
Môi Răng Vòm miệng
Tắc
Mặt lưỡi
Một số đặc điểm ngữ âm
tiếng Việt
Phân loại phụ âm theo tắc hay xát,
hữu thanh hay vô thanh, mũi hóa
32
Một số đặc điểm ngữ âm
tiếng Việt
Âm tắc: tiếng nổ, phát sinh do luồng khí từ phổi đi ra bị cản trở hoàn
toàn, phải phá vỡ sự cản trở đó để thoát ra.
Âm xát: tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở
không hoàn toàn (chỉ bị khó khăn), phải lách qua một khe hở nhỏ và
trong khi thoát ra như vậy phải cọ xát vào thành của bộ máy phát
âm.
Phụ âm bên: đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí,
buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má
mà ra ngoài tạo nên tiếng xát nhẹ (l).
Luồng không khí thoát ra ngoài bị cản trở, tạo nên tiếng xát hay tiếng
nổ, dạng tín hiệu không tuần hoàn gọi là tiếng động (ồn).
Trong khi phát âm một số phụ âm, dây thanh cũng hoạt động đồng
thời tạo nên tiếng thanh.
Phụ âm có tỉ lệ tiếng động lớn hơn gọi là phụ âm ồn.
Phụ âm có tỉ lệ tiếng thanh lớn hơn gọi là phụ âm vang.
933
phê bé
vẽ chè
Dạng sóng một số từ tiếng Việt
34
trị tìm
tám đánh
Dạng sóng một số từ tiếng Việt
35
kệ lạ
khả
Dạng sóng một số từ tiếng Việt
36
0 50 100 150 200 250 300 350 400 450 500
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
10
370 50 100 150 200 250 300 350 400 450
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
38
0 100 200 300 400 500 600
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
39
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0
- 0 . 3
- 0 . 2
- 0 . 1
0
0 . 1
0 . 2
0 . 3
N G H I R . W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p l e s , T i m e = 6 0 8 m s
A
m
p
l
i
t
u
d
e
T i m e i n m s
Dạng sóng một số từ tiếng Việt
400 100 200 300 400 500 600
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
11
41
0 100 200 300 400 500 600
-0.6
-0 .4
-0 .2
0
0.2
0.4
0.6
P HA IR .W A V , F s = 11025H z , 6934 s am ples , T im e = 629m s
A
m
p
l
i
t
u
d
e
T im e in m s
Dạng sóng một số từ tiếng Việt
42
0 50 100 150 200 250 300 350 400
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
43
0 100 200 300 400 500 600
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
440 50 100 150 200 250 300 350 400 450
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
12
45
0 100 200 300 400 500 600 700
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
46
0 100 200 300 400 500 600 700 800
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
47
0 100 200 300 400 500 600
-0.6
-0.4
-0.2
0
0.2
0.4
KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
48
0 50 100 150 200 250 300 350 400 450 500
-0.4
-0.2
0
0.2
0.4
0.6
NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
13
490 50 100 150 200 250 300 350 400 450
-0.6
-0.4
-0.2
0
0.2
0.4
LAJ.WAV, Fs = 11025Hz, 5442 samples, Time = 494ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
50
0 50 100 150 200 250 300 350
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
51
0 100 200 300 400 500 600 700 800
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
SOOS.WAV, Fs = 11025Hz, 8888 samples, Time = 806ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
52
0 50 100 150 200 250 300 350 400 450 500
-0.4
-0.2
0
0.2
0.4
0.6
TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms
A
m
p
l
i
t
u
d
e
Time in ms
Dạng sóng một số từ tiếng Việt
14
53
Mô hình tạo tiếng nói
(Fant-1960)
∏
=
−− ++
= K
1k
2
k2
1
k1 )zbzb1(
B)z(V
)z1(C)z(R 1−−=
T0
Lọc thông
thấp G(z)
Lọc thông
thấp G(z)
Tuyến âm
V(z)
Tuyến âm
V(z)
Tải bức xạ
R(z)
Tải bức xạ
R(z)
u(n)
x(n)
)z1)(z1(
A)z(G 11 −− β+α+=
54
)z(A
)z(R)z(V)z(G)z(T σ==
p2K 1
i i
i i 0
i 1 i 0
A(z) 1 a z A(z) a z a 1
+ − −
= =
= + = =∑ ∑
)n(u)in(xa)n(x
p
1i
i σ=−+∑
=
)z(A
)z(T σ=
P = 2K+1
Mô hình toàn điểm cực (AR)
A(z): Hàm truyền đạt của bộ lọc đảo
55
Mô hình ARMA
)z(A
)z(C
)z(A)z(A
)z(T
2
2
1
1 σ=σ+σ= 1zc)z(C -i
q
0i
i == ∑
=
0c
)in(uc)in(xa)n(x
q
0i
i
p
1i
i −σ=−+ ∑∑
==
56
1
Tần số
Biên độ
Dải thông
Fk
Bk
1 2/
Dải thông
15
57
2. Xử lý tín hiệu tiếng nói
Phân tích phổ
– Bộ lọc hiệu chỉnh H(z) = 1 – az-1, a = 0,95..0,98
Bộ lọc
hiệu chỉnh
Cửa sổ
Hamming FFT Log |.|
58
N
x(n)
frame 0
59
Xử lý đồng hình (homomorphic)
s(n)=h(n)*e(n) S(ω) = H(ω).E(ω)
log[S(ω)]= log[H(ω)]+ log[E(ω)]
F-1{log[S(ω)]} = F-1{log[H(ω)]} + F-1{log[E(ω)]}
F-1{log[S(ω)]} =
F-1{log[H(ω)]} =
F-1{log[H(ω)]} =
$s(n)
$h(n)
$e(n)
$ $= +$s(n) h(n) e(n)
60
$s(n)
Sơ đồ khối xử lý đồng hình
Bộ lọc
hiệu chỉnh
Cửa sổ
Hamming FFT Log |.|
FFT-1
16
61
T0
h(n)
)
c(n)
T0
Ví dụ
62
Mô hình AR
Tiên đoán
Sai số tiên đoán
Sai số bình phương toàn phần
Tối thiểu hóa sai số
$ $
=
= − −∑p i
i 1
x(n) ax(n i)
$= −e(n) x(n) x(n)
= ∑ 2
n
E e (n)
$
∂ = =∂ i
E
0, i 1,2,...,p
a
=
+ − = σ∑p i
i 1
x(n) a x(n i) u(n)
Tiên đoán tuyến tính (Linear
Prediction Coding)
63
Xác định tần số cơ bản
Giá trị F0 phụ thuộc vào giới tính và
lứa tuổi
– Giọng nam: 80..250 Hz
– Giọng nữ: 150..500 Hz
Xác định
Fo
Đánh giá
kết quả
Tiền
xử lýTín hiệu
tiếng nói
64
Một số phương pháp xác định Fo
Dựa vào hàm tự tương quan
Dựa vào hàm vi sai biên độ trung bình
Dùng bộ lọc đảo và hàm tự tương
quan
Xử lý đồng hình
17
65
1
0
( ) ( ) ( ) 0,1,...,
− −
=
= + =∑ N k
n
R k x n x n k k K
Dựa vào hàm tự tương quan
Tính hàm tự tương quan R(k) của tín hiệu tiếng nói
x(n)
Fs = 10 kHz, N = 300, K = 150.Tìm cực đại trong khoảng (0, K)
66
Phương pháp tự tương quan có
cải tiến
Hạn chế, loại bỏ |x| < CL
67
Dựa vào hàm vi sai biên độ trung
bình (Average Magnitude Difference Function)
( ) 0, 0,1,... D iP i= =
1/ 21 1
2
0 0
1 1( ) ( )
N N
n n
u n u n
N N
− −
= =
⎡ ⎤≤ ⎢ ⎥⎣ ⎦∑ ∑
2
1/ 2
1( ) [ ( ) ( )]
1 [2 (0) 2 ( )] 0,1,...,
1
⎧ ⎫= + − + −⎨ ⎬⎩ ⎭
⎧ ⎫= − =⎨ ⎬⎩ ⎭<
∑
1/2N-1
m=0
D k x n m x n m k
N
r r k k K
N
λ
λ
λvíi
1
0
( ) ( ) ( ) 0,1,...,
−
=
= + − + − =∑N
m
D k x n m x n m k k K
68
700 750 800 850 900 950 1000 1050 1100 1150
-0.2
-0.1
0
0.1
0.2
0.3
x
(
n
)
n
0 50 100 150 200 250 300
-0.01
-0.005
0
0.005
0.01
0.015
r
(
k
)
k
0 50 100 150 200 250 300
0
0.05
0.1
0.15
0.2
D
(
k
)
k
700 750 800 850 900 950 1000 1050 1100 1150
-0.2
-0.1
0
0.1
0.2
0.3
x
(
n
)
n
50 100 150 200 250 300
-0.01
-0.005
0
0.005
0.01
0.015
r
(
k
)
k
0 50 100 150 200 250 300
0
0.05
0.1
0.15
0.2
D
(
k
)
k
Ví dụ
18
69
Thông thấp Thông thấp 1-z-1 W(n)(n) LPC(p=4)LPC(p=4)
A(z) Hàm tự tương quan
Tìm cực đạiNội suyĐánh giá kết quả
Fo
HT/VT
10kHz
4700Hz 900Hz
Dùng bộ lọc đảo (Simplified Inverse
Filter Tracking)
70
Xử lý đồng hình
71
Xác định formant
Tham số cần xác định
– Formant Fk
– Dải thông Bk
Phương pháp
– Xử lý đồng hình
– LPC
72
Bộ lọc
hiệu chỉnh
Cửa sổ FFT
Log10|.| FFT-1 FFT
Wc(n)
Xử lý đồng hình
Tín hiệu
tiếng nói
19
73
Xử lý đồng hình
74
Fk,Bk
s(n)
Bộ lọc
hiệu chỉnh Cửa sổ
Tính hệ
số ai
Tính1/ |A(ejω)|
bằng FFT
Tìm
cực đại
Tính nghiệm
của A(z)
Quyết định
Phương pháp LPC
75
Mã hoáã hoáLọc1Lọc1 ADAD
Giải mãiải ã DADA Lọc2Lọc2
Nhiễu, suy giảm,
sai số
Nhiễu, suy giảm,
sai số
3. Mã hóa tiếng nói
Dãy thao tác mã hoá và giải mã
76
0
( ) lim[ /(2 1)]x Np N Nξξ
ξ →∞∆ →
= +
Một số tính chất thống kê của
tín hiệu tiếng nói
Mật độ xác suất
Nξ : số lượng mẫu x(n)
có biên độ trong
khoảng [ξ-∆ξ/2, ξ+∆ξ/2]
n ∈[-N,...,N]
x egodic và dừng
20
77
1( )d lim ( )
2 1
N
x x N n N
p x n
N
µ ξ ξ ξ
∞
→∞ =−−∞
= = + ∑∫
2 2 21( )d lim ( )
2 1
N
x x N n N
p x n
N
σ ξ ξ ξ
∞
→∞ =−−∞
= = + ∑∫
Giá trị trung bình và phương sai
Giá trị trung bình của tín hiệu dừng
với tín hiệu tiếng nói µx = 0
Phương sai
78
Lượng tử tức thời (không nhớ)
Luật lượng tử y = Q(x) được định nghĩa:
– (L+1) mức tín hiệu x(0), x(1), ..., x(L)
– L mức lượng tử hoá
Mỗi mức lượng tử hoá biểu diễn bằng từ b bit
L = 2b.
Sai số lượng tử (tạp âm lượng tử) e = Q(x) - x
Bước lượng tử : hiệu 2 mức tín hiệu kề nhau
δ(i) = x(i)-x(i-1)
Thông lượng I = bFs (bit/s). Fs : tần số lấy mẫu
79
Tín hiệu lượng tử 8 bit (256 mức), Fs = 8
kHz → Thông lượng = 64 kbit/s
Tín hiệu lượng tử 16 bit (65536 mức),
Fs = 16 kHz → Thông lượng = 256 kbit/s ,
1 giờ tiếng nói ~100 Mbyte
Cần phải mã hoá tín hiệu tiếng nói (MPEG,
GSM, G723, ...) để truyền tiếng nói trên mạng
hoặc lưu trữ
Thông lượng
80
Tần số lấy
mẫu (kHz)
Số bit cho
1 mẫu
Thông
luợng kbit/s
Dung lượng /
phút (kbyte) Lĩnh vực
48 16 768 11520 Ghi âm chuyên
nghiệp
44,1 16 705,6 10584 CD Audio
32 16 512 7680 Radio FM
22 12 264 3960 Radio AM
8 8 64 960 Điện thoại
Thông lượng
21
81
Lượng tử đều
Tổng quát, bước lượng tử là hàm của biên độ tín
hiệu x (lượng tử không đều) → đơn giản nhất là
lượng tử đều.
Mức lượng tử được chọn giữa 2 mức tín hiệu
y(i) = (1/2)[x(i-1)+x(i)]
Luật lượng tử đều và đối xứng đặc trưng bởi:
– các mức bão hoà ± xs
– mức lượng tử L hoặc (L+1) = 2b.
Bước lượng tử δ = 2xs/L
82
Lượng tử đều
L = 9
83
0 2 4 6 8 10 12 14
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Lượng tử đều
84
0 2 4 6 8 10 12 14
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Lượng tử đều
L = 16
22
85
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-0.2
0
0.2
Quantification Error
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-1
0
1
0 2 4 6 8 10 12
-0.2
0
0.2
Quantification Error
Lượng tử đều
86
Các tính chất lượng tử đều
Mật độ xác suất sai số lượng tử
phân bố đều giữa - δ /2 và + δ /2
Trung bình tạp âm lượng tử = 0
Phương sai
( ) ( ), ( 1) / 2 e x
i
p p i Lξ δ ξ
=−
= + = −∑l
l
l
/ 2
2 2 2
/ 2
/ d /12e
δ
δ
σ ξ δ ξ δ
−
= =∫
( ) 1/ , / 2
0, / 2
ep ξ δ ξ δξ δ
= ≤
= >
87
2
210 lg (dB) 6,02 4,77 20 lg
x s
xe
xSN bσ σσ
⎛ ⎞ ⎛ ⎞= = + −⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠
max4 (dB) 6 7,3NÕu sx SN bσ= → = −
Các tính chất lượng tử đều
Tỷ số tín hiệu trên nhiễu
Với b ≥ 6, tăng 6 dB mỗi khi tăng 1 bit lượng tử. Để
có chất lượng thích hợp cần có b ≥ 11
88
Tỷ số tín hiệu trên nhiễu
hoặc
s
n
dB 10
WSN
W
SN 10 log SN
= =
=
N¨ng l−îng tÝn hiÖu
N¨ng l−îng nhiÔu
dB 10SN 20 log= Biª n ®é tÝn hiÖuBiª n ®é nhiÔu
23
89
Năng lượng SN (dB)
Tín hiệu = Nhiễu 0
Tín hiệu = 2 Nhiễu 2
Tín hiệu = 10 Nhiễu 10
Tín hiệu = 100 Nhiễu 20
Tín hiệu = 1000 Nhiễu 30
Tín hiệu = 10N Nhiễu N x 10
Tỷ số tín hiệu trên nhiễu
90
log[]log[] Q[][] Mã hóaã hóa
signe[]signe[]
x(n) c(n)
y(n)
yˆ'(n)
exp[]exp[]Giải mãiải ã
signe[x(n)]
c’(n)
xˆ'(n)
xˆ'(n)
y(n)
)
Lượng tử logarit
Sau khi lấy logarit biên độ tín hiệu sẽ mã hoá tuyến
tính
91
log(1 )
log(1 )
x
y
µ
µ
+= +
Lượng tử logarit
Hai giải pháp dùng cho điện thoại
– Luật µ (dùng ở Mỹ)
92
1 log
1 log
A x
y
A
+= +
255 87,56 Aµ = =
Lượng tử logarit
Hai giải pháp dùng cho điện thoại
– Luật A(dùng ở châu Âu)
8 bit logarit ~ 12 bit lượng tử đều
24
93
y(n)= x(n) G(n)
Q[]Q[] Mã hóaMã hóa
x(n)
c(n)
Thích nghi
độ k.đại
Thích nghi
độ k.đại G(n) δ G(n)
yˆ(n)
yˆ'(n)
Giải mãGiải mã c’(n):
ˆˆ y'(n)x'(n) =
G'(n)
G’(n)
Lượng tử thích nghi
Bước lượng tử tuỳ thuộc vào biên độ tín hiệu
– Thích nghi trước
94
Q[]Q[] Mã hóaMã hóa
x(n) c(n)y(n)
Thích nghi
độ k.đại
Thích nghi
độ k.đại
G(n)
∆
Giải mãGiải mã c’(n):
G’(n) Thích nghi
độ k.đại
Thích nghi
độ k.đại
Lượng tử thích nghi
– Thích nghi sau
ˆˆ y'(n)x'(n) =
G'(n)
yˆ'(n)
yˆ(n)
95
Một số chuẩn mã hoá
âm thanh/tiếng nói
G.721 : ADPCM, 32 kbps, 4bits, 8kHz
G.722 : ~ADPCM, 48 đến 64 kbps,
G.723 : ~ADPCM, 24 kbps, 3 bits, 8kHz
G.728 : 16 Kbps
GSM : điện thoại di động, 13 kbps
Linear Predictive Encoding (Xerox), 5 kbps
Code Excited Linear Prediction (CELP)
Digital Video Interactive : ~ADPCM, 4 đến 8 bits
VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)
96
4. Tổng hợp tiếng nói
Tạo tiếng nói xuất phát từ biểu diễn
ngữ âm của lời nói
Kỹ thuật tổng hợp tiếng nói:
– Tổng hợp trực tiếp
– Tổng hợp dựa trên mô hình
Bộ tổng hợp formant
Bộ tổng hợp dùng LPC
Bộ tổng hợp mô phỏng bộ máy phát âm
25
97
Phân loại
Chất lượng bộ tổng hợp: Mức độ tự nhiên
– Mức độ rõ
– Thanh điệu
– Ngữ điệu
Số lượng từ vựng:
– Hạn chế
– Không hạn chế
Bộ tổng hợp tiếng nói từ văn bản (Text-to-
Speech)
98
Tổng hợp trực tiếp
Ghi âm tiếng nói tự nhiên
- Đơn vị ghi âm
- Ghép các đơn vị ghi âm: từ, câu.
Đơn vị ghi âm
– âm vị
– âm tiết (diphone)
– từ
– tổ hợp từ
– câu
99
Tổng hợp formant
Tạo tạp âmTạo tạp âm
Tạo xungTạo xung
Kênh mũiKênh mũi
F1 F2 F3
B1 B2 B3
F0
Khoang miệng
A2
A1
A3
A4
100
Tổng hợp LPC
Tạo xungTạo xung
Bộ lọc số
bậc p
Bộ lọc số
bậc p
Tạo tạp âmTạo tạp âm
F0 A
a1 a2 ... ap
Synthesis-by-Analysis
26
101
Mô phỏng bộ máy phát âm
Mô phỏng nguồn âm (nguồn tuần hoàn)
Mô phỏng dây thanh:Mô hình một khối, Mô hình
hai khối, Mô hình nhiều khối, Mô hình hai dầm...
Tham số điều khiển
Nguồn âm Tuyến âm
102
Mô hình nguồn âm
Mô hình 2 khối
Mô hình 2 dầm
Mô hình nhiều khối
103
Mô phỏng tuyến âm
Rời rạc hóa
104
Mô hình phản xạ
Giả thiết
– Vách ngăn cứng
– Sóng truyền đơn hướng (dọc theo trục
ống)chỉ xét các tần số < 5000 Hz, biến
thiên diện tích không quá đột ngột
– Bỏ qua tổn hao: tính lỏng, truyền nhiệt
27
105
Ống tiết diện đều, không tổn hao
Ống tiết diện đều và
đường dây tương đương
Hệ phương trình Webster
u: thông lượng, p: áp suất, ρ: mật độ không khí, c: vận tốc sóng âm
v(l,t)=0
0
2
0
p u
x A t
u A p
x tc
ρ
ρ
∂ ∂− =∂ ∂∂ ∂− =∂ ∂
0
( , )
( , )
x xu x t u t u t
c c
cx xp x t u t u t
c c A
ρ
+ −
+ −
⎛ ⎞ ⎛ ⎞= − − +⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎡ ⎤⎛ ⎞ ⎛ ⎞= − + +⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎣ ⎦
106
Tương tự âm học – điện học
Âm học Điện học
p: Áp suất v: Điện áp
u: Thông lượng i: Dòng điện
ρ0/A: Điện cảm âm học L: Điện cảm
A/ρ0c2: Điện dung âm học C: Điện dung
107
Xét trong miền tần số
Sóng tới và sóng phản xạ có dạng
– Điều kiện biên tại thanh môn
– Điều kiện biên tại môi
( ) ( )
,
x xj t j t
c cx xu t K e u t K e
c c
Ω − Ω ++ + − −⎛ ⎞ ⎛ ⎞− = + =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
(0, ) ( ) ( ) j tG Gu t u t U e
Ω= = Ω
( , ) 0p t =l
0
0 ( )Z j A
ρΩ = Ω
0
sin[ ( )/ ] cos[ ( )/ ]( , ) ( ) , ( , ) ( )
cos / cos /
j t j tG G
x c x cp x t jZ U e u x t U e
c c
Ω ΩΩ − Ω −= Ω = ΩΩ Ω
l l
l l
108
Đáp ứng tần số
Tại môi
Đáp ứng tần số
( , ) ( , ) j tu t U e Ω= Ωl l
( )
1( , ) ( )
cos /
= ⇒ Ω = ΩΩl l l Gx U Uc
( , ) 1( )
( ) cos( / )G
UH
U c
ΩΩ = =Ω Ω
l
l
( )
(2 1)
4
víiH
n cf
Ω →∞+= l
17,5 ,
500,1500,2500...
c=350 m/scm
f Hz
==l
28
109
Mô hình phản xạ không tổn hao
(Kelly-Lochbaum)
Các ống cơ bản có cùng chiều dài k k+1τ τ c
= = = τl
kl
k 1+l
+
ku (t)
+
k ku (t - τ )
+
k + 1u (t)
+
k + 1 k + 1u (t - τ )
-
ku (t)
-
k ku (t + τ )
-
k + 1u (t)
-
k + 1 k + 1u (t + τ )
0
0
tiết diện Ak
tiết diện Ak+1
110
Mô hình phản xạ không tổn hao
(Kelly-Lochbaum)
Tính liên tục của áp suất và thông lượng
Đặt hệ số phản xạ
k k 1
k k 1
p ( , t) p (0, t)
u ( , t) u (0, t)
+
+
=
=
l
l
+ +k+1 k+1 k
k+1 k k 1
k+1 k k+1 k
+k+1 k k
k k k 1
k+1 k k+1 k
2A A Au (t) u (t - τ) u (t)
A +A A +A
A A 2Au (t+ τ) u (t - τ) u (t)
A +A A +A
−
+
− −
+
−= +
−= − +
k+1 k
k
k+1 k
A Ar
A +A
−=
+ +
k+1 k k k k 1
+
k k k k k 1
u (t) (1 r ) u (t - τ) r u (t)
u (t+ τ) r u (t - τ) (1 r ) u (t)
−
+− −
+
= + +
= − + −
111
Phân bố sóng
trÔ
τ
trÔ
τ
trÔ
τ
trÔ
τ
ku (t)
+
ku (t )
+ −τ k+1u (t)+ k 1u (t )++ −τ
ku (t)
−
ku (t )
− +τ k+1u (t)− k+1u (t )− +τ
k(1 r )+
k(1 r )−
kr−
kr
Ống k+1Ống k
Tiếp giáp
0 l 0 l
112
Hiệu ứng của các tổn hao
Tổn hao do dịch chuyển không khí trong tuyến âm
– Do tính lỏng của không khí
– Do truyền nhiệt
– Do rung vách ngăn
truyền nhiệt
tính lỏng
rung
29
113
Hiệu ứng của các tổn hao
Tổn hao do bức xạ tại môi
– Mô hình quả bóng vô hạn
– Trở kháng bức xạ
( )
( , )
r r
r
r r
j L RpZ
U R j L
ΩΩ= =Ω + Ωl
2
128 8,
39
: b¸n kÝnh më t¹i m«i
r r
aR L
c
a
ππ= =
114
Hiệu ứng chung của các tổn hao
Dải thông
Bức xạ tại môi
Rung
Nhiệt+lỏng
115
5. Nhận dạng tiếng nói
Hai giai đoạn: huấn luyện (học) – nhận dạng
Phân loại theo
– Số lượng từ vựng
– Từ rời rạc – liên tục
– Một người nói – nhiều người nói
– Nhận dạng từ – câu
116
Phân loại theo độ phức tạp
Nhận dạng từ riêng lẻ, từ vựng ít (<100), một người
nói
Từ vựng nhiều hơn (vài nghìn từ), một người nói
Như trên nhưng cho hệ thống nhiều người nói
Nhận dạng các từ đi với nhau, từ vựng ít (hàng
chục từ)
Nhận dạng câu ngắn, từ vựng hạn chế, một người
nói
Như trên nhưng cho hệ thống nhiều người nói
Nhận dạng lời nói liên tục, một hoặc nhiều người
nói
30
117
Nhận dạng người nói (Speaker Recognition)
Kiểm tra (verification) giọng nói
Định danh (identification) giọng nói
118
Một số vấn đề đối với hệ thống
nhận dạng tiếng nói
Phát hiện khoảng lặng
Cải thiện chất lượng tín hiệu tiếng nói (giảm
nhiễu)
Tiếng nói được phát âm với thời hạn và
nhịp điệu khác
Mô hình nhận dạng
– Mô hình Markov ẩn (Hidden Markov Model:
HMM)
– Mạng nơ-ron
Các file đính kèm theo tài liệu này:
- xulytiengnoi_trinhvanloan_2122.pdf