KẾT LUẬN
Âm thanh và những đặc tính nghe của tai
người rất phức tạp. Năng lượng âm thanh
giảm dần từ miền tần thấp đến miền tần số
cao, phân bố năng lượng phổ theo Octave. Do
cấu trúc của tai người xuất hiện các dải tới
hạn, hiện tượng che âm thanh theo tần số và
theo thời gian. Những cơ sở khoa học đó, nếu
khai thác triệt để sẽ tạo ra những thuật toán
xử lý âm thanh cho tỷ lệ nén cao. Bài báo đã
vận dụng những đặc tính đó trong việc chia
dải tần âm thanh thoại thành 3 dải con để xử
lý riêng biệt, hiệu quả nén dữ liệu đạt khoảng
12,5%. Với hướng nghiên cứu này, tác giả đã
0 2 4
-10
0
10
20
30
40
50
60
70
Frequency (kHz)
Spectrum
Hình 6: So sánh phổ tín hiệu với ngưỡng nghe
tuyệt đối của tai người
Nitro PDF Software
100 Portable Document Lane
giới thiệu những giải pháp mã hóa nén âm
thanh với số dải con khác nhau và hệ số phân
chia không theo Wavelet cho hiệu quả nén dữ
liệu khác nhau, tùy thuộc vào các ứng dụng
cụ thể. Các kết quả đó đã được giới thiệu
trong các tạp chí và hội nghị khoa học trong
và ngoài nước
6 trang |
Chia sẻ: thucuc2301 | Lượt xem: 532 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Nén âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người - Nguyễn Xuân Trường, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
39
NÉN ÂM THANH THOẠI DỰA VÀO
NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN CỦA TAI NGƯỜI
Nguyễn Xuân Trường*
Trường Cao đẳng Phát thanh-Truyền hình I
TÓM TẮT
Để tiết kiệm tần phổ, trong thông tin thoại âm thanh chỉ lấy tới 4kHz. Trong phổ tần đó, tai người
chỉ nghe được những tone có năng lượng đủ lớn, lớn hơn ngưỡng nghe tối thiểu. Hơn nữa, những
tone âm thanh yếu xuất hiện gần (cả miền tần số và miền thời gian) những tone âm thanh mạnh
đều có thể bị che khuất, tai người cũng không thể nghe được. Bài báo này đề xuất một giải pháp để
nén âm thanh thoại mà chất lượng vẫn không đổi. Cơ sở của giải pháp này dựa vào ngưỡng nghe
tuyệt đối và phân bố dải tới hạn của tai người. Dải phổ âm thanh thoại 4kHz được phân chia thành
3 dải con, mỗi dải con bao phủ một số dải tới hạn của tai người. Trong mỗi dải con loại bỏ những
thành phần tai người không nghe thấy. Những dải con có năng lượng phổ nhỏ, được mã hóa với số
lượng bít ít và ngược lại.
Từ khóa: Mã hóa băng con (SBC), Mức áp suất âm thanh (SPL), Hài âm thanh có khả năng che
(Tone Masker), Hài âm thanh bị hài khác che (Tone Maskee)
GIỚI THIỆU CHUNG*
Âm thanh thoại ở định dạng không nén, tần số
lấy mẫu 8kHz, do đó tần số cực đại của âm
thanh thoại chỉ là 4kHz. Với mã hóa 8
bít/mẫu thì tốc độ bít là 8kHz x 8bits/mẫu =
64kbps. Thực tế có nhiều thuật toán mã hóa
nén âm thanh với tỷ lệ nén khác nhau. Mã hóa
dải con là một trong những thuật toán đạt tỷ lệ
nén dữ liệu cao. Điển hình là thuật toán ứng
dụng trong chuẩn âm thanh MPEG cho tỷ lệ
nén dữ liệu lên tới 12:1 (128kbps lớp III) so
với CD (Linear PCM, tốc độ bít là 1411kbps).
Chuẩn MPEG phân chia dải tần tín hiệu âm
thanh lên đến 32 dải con. Thuật toán
ATRAC1 giảm tốc độ bít xuống còn 292kbps
(3 dải con), thuật toán ATRAC3 tốc độ bít
còn 132kbps (4 dải con), thuật toán
ATRAC3plus tốc độ bít là 64kbps (16 dải
con). Tất cả các thuật toán đều dùng phân chia
Wavelet (các hệ số phân chia đều là lũy thừa
của 2), chưa phải đã phù hợp hoàn toàn với các
đặc tính của âm thanh và của tai người.
Bài báo đề xuất một giải pháp nén âm thanh
thoại, chất lượng âm thanh vẫn không đổi. Cơ
sở của giải pháp này là loại bỏ những thành
phần âm thanh tai người không nghe thấy,
*
Tel: 0913 067429, Email: nguyenxuantruong.vov@gmail.com
dựa vào ngưỡng nghe tuyệt đối và phân bố
dải tới hạn của tai người.
CƠ SỞ LÝ LUẬN VÀ THỰC TẾ
1- Ngưỡng nghe tuyệt đối: Ngưỡng nghe
tuyệt đối (absolute threshold of hearing) của
tai người mô tả mức thanh áp (sound pressure
level-SPL) nhỏ nhất mà tai người còn nghe
thấy được. Dải tần nghe thấy của tai người từ
20Hz tới 20kHz, trong khoảng này, độ nhạy
của tai người khác nhau đối với các tần số
khác nhau. Tai người chỉ nghe được những
tone âm thanh lớn hơn ngưỡng nghe tuyệt đối.
Hình 1 là ngưỡng nghe tuyệt đối của tai người
trong khoảng từ 0 đến 11,25kHz[1].
Những tone âm thanh nằm dưới ngưỡng
nghe, tai người không có khả năng nghe thấy.
Do vậy, khi mã hóa-nén âm thanh nói chung
và âm thanh thoại nói riêng, nên tách riêng
những thành phần tần số có biên độ phổ lớn
hơn và nhỏ hơn ngưỡng nghe tuyệt đối.
Những thành phần tần số có biên độ phổ lớn
hơn ngưỡng nghe tuyệt đối được mã hóa và
loại bỏ những thành phần tần số có biên độ
phổ nhỏ hơn ngưỡng nghe tuyệt đối.
Phổ của tín hiệu âm thanh chứa nhiều hài,
mỗi hài gọi là một tone. Căn cứ vào ngưỡng
nghe tuyệt đối, tai người nhạy nhất đối với
những tone âm thanh ở vùng tần số từ
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
40
1968,8Hz đến 4875Hz. Trong khoảng này,
những tone có SPL dưới 0dB tai người vẫn có
khả năng nghe thấy. Như vậy, không nén âm
thanh trong vùng tần số này, dùng bộ lọc tách
riêng vùng tần số 2kHz đến 4kHz để mã hóa.
2- Hiện tượng che âm thanh: Do cấu trúc của
tai người làm xuất hiện hiệu ứng che âm
thanh (masking sound). Che âm thanh là một
hiện tượng cơ bản trong quá trình cảm nhận
âm thanh của tai người[1]. Tai người có thể
không nghe được một tone âm thanh biên độ
nhỏ hơn, khi có một tone âm thanh bên cạnh
có biên độ lớn hơn. Ta nói rằng tone âm thanh
biên độ nhỏ bị che bởi tone âm thanh biên độ
lớn hơn. Tone âm thanh biên độ lớn hơn gọi
là tone che (masker), tone âm thanh biên độ
nhỏ hơn gọi là tone bị che (maskee). Đơn giản
có thể hiểu hiệu ứng che là âm lớn át âm bé.
Tone che tạo ra đường cong che, chẳng khác
nào chính tone che làm ngưỡng nghe nâng lên
ở vùng tần số xung quanh nó (hình 2). Tai
người không nghe được tone (hay tạp âm)
nằm dưới ngưỡng che.
a- Che biên độ (amplitude masking)[1]: Với
các tone âm thanh có tần số gần nhau, tone có
biên độ lớn sẽ che tone có biên độ nhỏ hơn.
Khi các tone đó xuất hiện đồng thời thì các
tone lớn hơn có thể làm mờ hoàn toàn các
tone yếu.
Ví dụ, tone 500Hz có thể che tone 600Hz yếu
hơn, như vậy có thể bỏ qua tone 600Hz. Che
biên độ còn gọi là che đồng thời. Đường cong
che đồng thời không đối xứng, mở rộng hơn
về phía tần số cao (hình 2). Nghĩa là, các tone
tần số thấp che các tone tần số cao dễ hơn,
nhưng ngược lại thì khó hơn.
Các masker có SPL thấp chỉ có tác dụng che
trong một dải tần tương đối hẹp. Tuy nhiên,
nếu SPL của masker tăng thì đường cong
ngưỡng che được mở rộng, đặc biệt là mở
rộng hơn về phía tần số cao. Che đồng thời
tăng khi tần số của các tone càng gần nhau.
Ví dụ, trong khi đàm thoại có âm thanh của
tàu hỏa đi qua, lúc đó âm thanh của con tàu
che mờ âm thanh đàm thoại.
b- Che thời gian (temporal masking)[1]: Xuất
hiện khi nghe các tone gần nhau về thời gian
nhưng không đồng thời. Một tín hiệu có thể bị
che bởi tạp âm (hay tín hiệu khác) xuất hiện
muộn hoặc sớm hơn. Nói một cách khác, tone
lớn hơn xuất hiện trước hoặc sau tone yếu
hơn đều có khả năng che tone yếu hơn. Che
thời gian tăng khi thời điểm xuất hiện các
tone càng gần nhau. Che thời gian giảm khi
khoảng tồn tại của tone che giảm.
Hiện tượng che càng lớn khi hai tone âm
thanh càng gần nhau hơn, cả miền tần số và
miền thời gian. Như vậy, che đồng thời tốt
hơn che thời gian vì các âm thanh xuất hiện
cùng một lúc. Che đồng thời hiệu quả hơn khi
tần số của tín hiệu bị che bằng hoặc lớn hơn
tần số của tín hiệu che.
Hình 1: Đường cong ngưỡng nghe tuyệt đối
của tai người phụ thuộc vào tần số
2 4 6 8 10 11.25
-10
0
10
20
30
40
50
60
70
Frequency (kHz)
S
P
L
Vùng nghe thấy
Vùng không nghe thấy
Dải tần của
âm thanh thoại
2 4 6 8 10 11.25
-10
0
10
20
30
40
50
60
70
Frequency (kHz)
S
P
L
Vùng không nghe thấy
Đường cong che
Tone che
Tone bị che
Hình 2: Hiện tượng che âm thanh của tai người
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
41
Trong che thời gian, masker có thể che những
tone xuất hiện muộn hơn trong khoảng thời
gian tương đối lớn (xấp xỉ 15ms) sau khi
masker đã kết thúc. Trong khi đó, che tone
âm thanh xuất hiện sớm hơn, hiệu quả chỉ
trong khoảng 2ms đến 3ms trước khi tone che
xuất hiện. Như một sự lựa chọn, não bộ xử lý
những âm thanh to nhanh hơn các âm thanh
yếu. Âm thanh nằm dưới ngưỡng che đó sẽ
không nghe thấy được. Bộ mã hoá cảm giác
(Psycho-acoustic model) phải thiết kế sao cho
tạp âm và nhiễu nằm dưới ngưỡng che.
3- Phân bố dải tới hạn của tai người: Tai
người cảm nhận âm thanh theo thang tần số[1],
có thể coi tai người như bộ phân tích Fourier.
Do cấu trúc, tai người cộng hưởng cục bộ
trong những khoảng tần số nhất định. Những
dải tần số này gọi là dải tới hạn (critical
band). Trong dải tần nghe thấy của tai người
từ 20Hz đến 20kHz, Eberhard Zwicker đã
nghiên cứu tìm ra 25 dải tới hạn (hình 3). Độ
rộng dải tới hạn
cbf (Hz) xấp xỉ theo biểu
thức (1)[1], [2].
cb 0f (Hz) 24,7 4,37f (kHz) 1 (1)
Trong đó, f0 là tần số trung tâm tính bằng
kHz. Các dải tới hạn chủ yếu tập trung ở miền
tần số thấp. Tức là, tai người phân giải tần số
thấp tốt hơn miền tần số cao.
Một dải tới hạn có độ rộng 1 Bark, Bark là tên
của nhà vật lý người Đức: Georg Heinrich
Barkhausen. Bark là đơn vị đo dải tới hạn
(hay còn gọi là đơn vị của tần số cảm giác).
Chuyển từ thang tần số thông thường f(Hz)
sang thang tần số cảm giác Bark theo biểu
thức (2). Dùng Bark thì phổ vật lý có thể
chuyển thành phổ tâm lý [1], [2].
2
5
76.f f
Bark 13.arctg 3,5.arctg
750010
(2)
Âm thanh thoại chiếm 17 dải tới hạn (bảng 1).
Do đó, ta phân chia dải tần tín hiệu âm thanh
thoại thành các dải con phù hợp với phân bố của
các dải tới hạn, để tăng hiệu quả nén dữ liệu.
4- Phân bố năng lượng âm thanh: Năng lượng
âm thanh phân bố giảm dần từ miền tần số
thấp đến miền tần số cao. Đặc biệt, năng
lượng âm thanh phân bố theo thang tần số
Octave (thang tần số lôgarit)[1]. Số Octave (ký
hiệu là Oct) tương ứng với tần số f(Hz) theo
biểu thức (3).
2 cn(Oct) log f (Hz) / f (Hz) (3)
Bảng 1: Âm thanh thoại ứng với 17 dải tới hạn
TT Fmax(Hz) cb (Hz) F0 (Hz)
Dải
con
1 100 100 50
Dải
con thứ
nhất
2 200 100 150
3 300 100 250
4 400 100 350
5 510 110 450
6 630 120 570
7 770 140 700
8 920 150 840
9 1080 160 1000
10 1270 190 1170
Dải
con thứ
hai
11 1480 210 1370
12 1720 240 1600
13 2000 280 1850
14 2320 320 2150
Dải
con thứ
ba
15 2700 380 2500
16 3150 450 2900
17 3700 550 3400
Như vậy, một Octave tương ứng với biến
thiên gấp 2 lần về tần số so với tần số chuẩn
fc. Ví dụ, chọn fc=20Hz, thì giá trị tần số
tương ứng với số Octave cho trong bảng 2.
Dải tần nghe thấy của tai người từ 20Hz đến
20kHz chiếm khoảng 10 Oct. Âm thanh thoại
chiếm gần 8 Oct.
Hình 3: Phân bố 25 dải tới hạn của tai người
20kHz 0 Hz
8 dải tới hạn miền tần cao
17 dải con tương ứng với
dải tần âm thanh thoại.
4kHz
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
42
Bảng 2: Quan hệ giữa số đo tần số (Hz) và (Oct)
f(Hz) n(Oct) f(Hz) n(Oct) f(Hz) n(Oct)
20 0 320 4 5120 8
40 1 640 5 10240 9
80 2 1280 6 20480 10
160 3 2560 7
NÉN ÂM THANH THOẠI DỰA VÀO
NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN
BỐ DẢI TỚI HẠN
Với âm thanh thoại chiếm dải tần [0, 4kHz],
tương ứng với 17 dải tới hạn, chiếm 8
Octave (80% năng lượng âm thanh). Dựa
vào ngưỡng nghe tuyệt đối, ta đưa ra những
nhận xét sau đây:
i) Dải tần [0, 1kHz] tai người rất kém nhạy,
SPL trung bình để tai người nghe thấy là:
10,36dB.
ii) Dải [1kHz, 2kHz] tai người tương đối
nhạy, SPL trung bình là: 1,86dB.
iii) Dải [2kHz, 4kHz] tai người rất nhạy với
khoảng này nên lọc riêng và thực hiện mã hóa
không nén.
Qua phân tích, ta phân chia dải tần của tín
hiệu âm thanh thoại thành 3 dải con (hình 4)
để xử lý riêng biệt. Dải con thứ nhất [0, 1
kHz] bao phủ 9 dải tới hạn. Dải con thứ hai
[1, 2 kHz] bao phủ 4 dải tới hạn. Dải con thứ
ba [2, 4 kHz] bao phủ 4 dải tới hạn (bảng 1).
Để phân chia dải tần âm thanh thoại thành 3
dải con, mỗi dải có có độ rộng như vậy, ta
dùng băng lọc Wavelet nhiều nhịp không đối
xứng, đảm bảo điều kiện khôi phục hoàn hảo
(hình 5).
Phân tích Wavelet là lý thuyết tổng quát. Bài
báo đã khai thác phân tích Wavelet kết hợp
với đặc tính âm thanh thoại và đặc tính nghe
của tai người để nén âm thanh thoại. Đối với
phân tích Wavelet chỉ có hai dạng phân tích
đối xứng và phân tích không đối xứng. Ở đây
ta dùng phân tích Wavelet không đối xứng
[3], [4].
Sau khi phân tích tín hiệu âm thanh thoại
thành 3 dải con, tiến hành so sánh phổ của tín
hiệu mỗi dải con với ngưỡng nghe tuyệt đối
để loại bỏ thành phần nằm dưới ngưỡng nghe.
Những thành phần nằm trên ngưỡng nghe
tuyệt đối được mã hóa cũng với 8bits/mẫu.
Ví dụ lấy một file tiếng nói, xác định phổ của
nó bằng phân tích Fourier, sau đó so sánh với
ngưỡng nghe tuyệt đối để loại bỏ những thành
phần phổ tín hiệu nằm dưới ngưỡng nghe
tuyệt đối (hình 6).
Kết quả trong bảng 3. Dải con thứ 1 loại bỏ
16 vạch phổ. Dải con thứ 2 loại bỏ 6 vạch
phổ. Dải con thứ 3 không loại bỏ vạch phổ
nào. Vị trí những vạch phổ bị loại bỏ thể hiện
qua các chỉ số phổ.
KẾT QUẢ ĐẠT ĐƯỢC
Mỗi dải con được cấp phát một số bít nhất
định, tùy thuộc vào năng lượng tín hiệu của
dải con đó. Với
2
i
là phương sai của tín hiệu
a/ Băng lọc phân tích
HPF
LPF
2
2 HPF
LPF
2
2 Dải tần 3
Dải tần 2
Dải con 1 Tín
hiệu
vào
Hình 5: Băng lọc Wavelet chia dải tần âm
thanh thoại thành 3 dải con
HPF
LPF
2
2 HPF
LPF
2
2
b/ Băng lọc tổng hợp
Dải tần 3
Dải tần 2
Dải tần 1 Tín
hiệu
ra
0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4
-10
0
10
20
30
40
50
60
70
S
P
L
Frequency (kHz)
Dải con
1
Dải con
2
Dải con
3
Hình 4: Phân chia dải tần âm thanh thoại
thành 3 dải con
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
43
dải con thứ i, số bít trung bình trên một mẫu tín
hiệu cấp cho dải con thứ i là bTBi (bít/mẫu) và
được tính theo biểu thức (4) [5], [7].
2
i
TBi TB 2 1M 1
2 M
i
i 0
1
b b log
2
(4)
Bảng 3: Những thành phần phổ bị loại bỏ
Chỉ số
phổ
f(Hz) SPL
Biên độ phổ
bị loại bỏ
Dải
con
1 23.44 68.00 9.21880
Dải
con
1
2 46.88 42.10 19.52500
3 70.31 30.43 4.84400
4 93.75 24.17 7.85080
5 117.19 20.22 12.62420
6 140.63 17.47 8.69940
7 164.06 15.44 9.90120
8 187.50 13.87 7.78200
9 210.94 12.62 9.16940
11 257.81 10.74 7.91280
12 281.25 10.01 8.34380
13 304.69 9.39 0.82224
14 328.13 8.84 5.23280
17 398.44 7.56 5.79460
20 468.75 6.62 5.73560
25 585.94 5.50 4.62520
27 632.81 5.76 2.01840
Dải
con
2
30 703.13 4.71 0.79930
39 914.06 3.70 1.47098
40 937.50 3.61 1.23638
41 960.94 3.51 1.49474
53 1359.40 2.17 0.75774
Đánh giá chất lượng của bộ mã hoá dải con
thông qua méo của tín hiệu ra so với tín hiệu
vào, còn gọi là lỗi khôi phục. Lỗi khôi phục
được đánh giá qua lỗi trung bình bình
phương, biểu thức (5) [6], [7].
2
E x(n)-y(n)
(5)
Trong đó, x(n) là tín hiệu vào, y(n) là tín hiệu
sau khi khôi phục. Việc cấp phát bít phải tối
thiểu hóa được lỗi khôi phục, với điều kiện
ràng buộc là số lượng bít trung bình
TBb (bít/mẫu) cho trước. Với c là một hằng số
phụ thuộc vào tính thống kê của nguồn tín
hiệu, chọn c 0,5 3 [7], lỗi khôi phục
trong mã hoá dải con M kênh tính theo biểu
thức (6)[7]:
TB i
1M 1
2b 2 n
i
i 0
c.M.2
(6)
Giải pháp nén âm thanh thoại trong bài báo
này đã chọn M=3, các hệ số phân chia n0 = 4,
n1 = 4, n2 = 2. Do đó, lỗi khôi phục tính theo
biểu thức (7).
TB
1 1 1
2b 2 2 24 4 2
0 1 23. 3.2
2
(7)
Trên cơ sở biểu thức (4) và (6), dùng chương
trình Matlab áp dụng với 100 file âm thanh
thoại khác nhau, để xác định hiệu quả nén tín
hiệu. Trong trường hợp cùng lỗi khôi phục
=0,2024x10-6, chỉ cần số bít mã hóa trung
bình (tính cho 100 file âm thanh thoại) là
7.00829 bít/mẫu (7bít/mẫu), trong khi đó âm
thanh thoại đang dùng 8bít/mẫu. Như vậy tốc
độ bít sau khi nén là:
7bít/mẫux8kHz56kbps. Do đó, hiệu quả
nén đạt (64-56)/64=12,5%. Giá trị cụ thể số
bít trung bình cấp cho 40 file âm thanh thoại
đầu tiên cho trong bảng 4.
KẾT LUẬN
Âm thanh và những đặc tính nghe của tai
người rất phức tạp. Năng lượng âm thanh
giảm dần từ miền tần thấp đến miền tần số
cao, phân bố năng lượng phổ theo Octave. Do
cấu trúc của tai người xuất hiện các dải tới
hạn, hiện tượng che âm thanh theo tần số và
theo thời gian. Những cơ sở khoa học đó, nếu
khai thác triệt để sẽ tạo ra những thuật toán
xử lý âm thanh cho tỷ lệ nén cao. Bài báo đã
vận dụng những đặc tính đó trong việc chia
dải tần âm thanh thoại thành 3 dải con để xử
lý riêng biệt, hiệu quả nén dữ liệu đạt khoảng
12,5%. Với hướng nghiên cứu này, tác giả đã
0 2 4
-10
0
10
20
30
40
50
60
70
Frequency (kHz)
S
p
e
c
tr
u
m
Hình 6: So sánh phổ tín hiệu với ngưỡng nghe
tuyệt đối của tai người
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
44
giới thiệu những giải pháp mã hóa nén âm
thanh với số dải con khác nhau và hệ số phân
chia không theo Wavelet cho hiệu quả nén dữ
liệu khác nhau, tùy thuộc vào các ứng dụng
cụ thể. Các kết quả đó đã được giới thiệu
trong các tạp chí và hội nghị khoa học trong
và ngoài nước.
Bảng 4: Số bít trung bình cấp cho các file âm thanh
File âm
thanh
Số bít
trung bình
File âm
thanh
Số bít
trung bình
1 7.03 21 7.06
2 6.97 22 6.98
3 7.09 23 6.98
4 7.01 24 6.98
5 7.02 25 7.14
6 6.99 26 6.97
7 6.98 27 7.20
8 6.98 28 7.02
9 6.97 29 6.97
10 7.14 30 6.98
11 6.97 31 6.99
12 6.98 32 6.99
13 7.46 33 6.98
14 6.97 34 7.03
15 6.97 35 6.97
16 6.97 36 7.09
17 7.01 37 6.98
18 7.10 38 7.02
19 7.00 39 6.97
20 6.97 40 7.01
TÀI LIỆU THAM KHẢO
1. Ken C.Pohlmann (1995), Principles of digital
audio, 3rd edition by McGraw-Hill Book
Company.
2. Hector Perez Meana (2007), Advances in audio
and speech signal proccessing-Technologies and
applications, Published in the USA by Idea Group
Publishing.
3. Peter Lee (2003), Wavelet filter banks in
perceptual audio coding, Waterloo, Ontario,
Canada.
4. PGS-TS Nguyễn Quốc Trung (2001), Xử lý số
tín hiệu và lọc số, tập 1 và 2, Nxb khoa học và kỹ
thuật Hà nội.
5. Aldiel Ben-Shalom, Michael Werman,
Improved low bit rate audio compression using
reduced rank ICA instead of psychoacoustic
modeling, Hebrew University Jerusalem, Israel.
6. Fabrice Labeau, Luc Vandendorpe, Coding gain
and bit allocation for non critically decimated
paraunitary filter banks, UCL Communications
and Remote Sensing Laboratory, Belgium.
7. Martin Vetterli & Jelena Kovacevic (2007),
Wavelets and Subband Coding, Originally
published by Prentice Hall PTR, Englewood
Cliffs, New Jersey.
SUMAMRY
COMPRESSING TELEPHONE SPEECH CONSIDERING
THE ABSOLUTE THRESHOLD OF HEARING AND
THE DISTRIBUTION OF CRITICAL BANDS OF HUMAN EARS
Nguyen Xuan Truong
*
Broadcasting College I
To economize the frequency spectrum, in telephone communication, the maximum frequency of
speech is only 4 kHz. In that frequency spectrum range [0, 4kHz], the human ears can only hear
the tones with enough high spectrum energy, higher than hearing thresholds. Moreover, the tones
with lower spectrum energy appearing near (both frequency and time domains) the tones with
higher spectrum energy are able to be masked, the human ears cannot hear them. This paper
proposes a method to compress telephone speech with almost no loss of sound quality. It is based
on the absolute threshold of hearing and distributed to critical bands of the human ears. The
telephone speech spectrum is splited into 3 subbands, each subband covers some critical bands of
human ear. In each subband, the tones not heard by human ears are omitted. The subbands have
lower spectrum energy coded with the fewer bit number and vice versa.
Keywords: Subband Coding (SBC), Sound Pressure Level (SPL), Tone Masker, Tone Maskee.
Ngày nhận bài:12/3/2015; Ngày phản biện:31/3/2015; Ngày duyệt đăng: 31/5/2015
Phản biện khoa học: TS. Phùng Trung Nghĩa – Trường Đại học Công nghệ Thông tin & Truyền thông - ĐHTN
*
Tel: 0913 067429, Email: nguyenxuantruong.vov@gmail.com
Nitro PDF Software
100 Portable Document Lane
Wonderland
Các file đính kèm theo tài liệu này:
- brief_51678_55529_1542016104250file6_0119_2046712.pdf