Nén âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người - Nguyễn Xuân Trường

KẾT LUẬN Âm thanh và những đặc tính nghe của tai người rất phức tạp. Năng lượng âm thanh giảm dần từ miền tần thấp đến miền tần số cao, phân bố năng lượng phổ theo Octave. Do cấu trúc của tai người xuất hiện các dải tới hạn, hiện tượng che âm thanh theo tần số và theo thời gian. Những cơ sở khoa học đó, nếu khai thác triệt để sẽ tạo ra những thuật toán xử lý âm thanh cho tỷ lệ nén cao. Bài báo đã vận dụng những đặc tính đó trong việc chia dải tần âm thanh thoại thành 3 dải con để xử lý riêng biệt, hiệu quả nén dữ liệu đạt khoảng 12,5%. Với hướng nghiên cứu này, tác giả đã 0 2 4 -10 0 10 20 30 40 50 60 70 Frequency (kHz) Spectrum Hình 6: So sánh phổ tín hiệu với ngưỡng nghe tuyệt đối của tai người Nitro PDF Software 100 Portable Document Lane giới thiệu những giải pháp mã hóa nén âm thanh với số dải con khác nhau và hệ số phân chia không theo Wavelet cho hiệu quả nén dữ liệu khác nhau, tùy thuộc vào các ứng dụng cụ thể. Các kết quả đó đã được giới thiệu trong các tạp chí và hội nghị khoa học trong và ngoài nước

pdf6 trang | Chia sẻ: thucuc2301 | Lượt xem: 532 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Nén âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người - Nguyễn Xuân Trường, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 39 NÉN ÂM THANH THOẠI DỰA VÀO NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN CỦA TAI NGƯỜI Nguyễn Xuân Trường* Trường Cao đẳng Phát thanh-Truyền hình I TÓM TẮT Để tiết kiệm tần phổ, trong thông tin thoại âm thanh chỉ lấy tới 4kHz. Trong phổ tần đó, tai người chỉ nghe được những tone có năng lượng đủ lớn, lớn hơn ngưỡng nghe tối thiểu. Hơn nữa, những tone âm thanh yếu xuất hiện gần (cả miền tần số và miền thời gian) những tone âm thanh mạnh đều có thể bị che khuất, tai người cũng không thể nghe được. Bài báo này đề xuất một giải pháp để nén âm thanh thoại mà chất lượng vẫn không đổi. Cơ sở của giải pháp này dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người. Dải phổ âm thanh thoại 4kHz được phân chia thành 3 dải con, mỗi dải con bao phủ một số dải tới hạn của tai người. Trong mỗi dải con loại bỏ những thành phần tai người không nghe thấy. Những dải con có năng lượng phổ nhỏ, được mã hóa với số lượng bít ít và ngược lại. Từ khóa: Mã hóa băng con (SBC), Mức áp suất âm thanh (SPL), Hài âm thanh có khả năng che (Tone Masker), Hài âm thanh bị hài khác che (Tone Maskee) GIỚI THIỆU CHUNG* Âm thanh thoại ở định dạng không nén, tần số lấy mẫu 8kHz, do đó tần số cực đại của âm thanh thoại chỉ là 4kHz. Với mã hóa 8 bít/mẫu thì tốc độ bít là 8kHz x 8bits/mẫu = 64kbps. Thực tế có nhiều thuật toán mã hóa nén âm thanh với tỷ lệ nén khác nhau. Mã hóa dải con là một trong những thuật toán đạt tỷ lệ nén dữ liệu cao. Điển hình là thuật toán ứng dụng trong chuẩn âm thanh MPEG cho tỷ lệ nén dữ liệu lên tới 12:1 (128kbps lớp III) so với CD (Linear PCM, tốc độ bít là 1411kbps). Chuẩn MPEG phân chia dải tần tín hiệu âm thanh lên đến 32 dải con. Thuật toán ATRAC1 giảm tốc độ bít xuống còn 292kbps (3 dải con), thuật toán ATRAC3 tốc độ bít còn 132kbps (4 dải con), thuật toán ATRAC3plus tốc độ bít là 64kbps (16 dải con). Tất cả các thuật toán đều dùng phân chia Wavelet (các hệ số phân chia đều là lũy thừa của 2), chưa phải đã phù hợp hoàn toàn với các đặc tính của âm thanh và của tai người. Bài báo đề xuất một giải pháp nén âm thanh thoại, chất lượng âm thanh vẫn không đổi. Cơ sở của giải pháp này là loại bỏ những thành phần âm thanh tai người không nghe thấy, * Tel: 0913 067429, Email: nguyenxuantruong.vov@gmail.com dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người. CƠ SỞ LÝ LUẬN VÀ THỰC TẾ 1- Ngưỡng nghe tuyệt đối: Ngưỡng nghe tuyệt đối (absolute threshold of hearing) của tai người mô tả mức thanh áp (sound pressure level-SPL) nhỏ nhất mà tai người còn nghe thấy được. Dải tần nghe thấy của tai người từ 20Hz tới 20kHz, trong khoảng này, độ nhạy của tai người khác nhau đối với các tần số khác nhau. Tai người chỉ nghe được những tone âm thanh lớn hơn ngưỡng nghe tuyệt đối. Hình 1 là ngưỡng nghe tuyệt đối của tai người trong khoảng từ 0 đến 11,25kHz[1]. Những tone âm thanh nằm dưới ngưỡng nghe, tai người không có khả năng nghe thấy. Do vậy, khi mã hóa-nén âm thanh nói chung và âm thanh thoại nói riêng, nên tách riêng những thành phần tần số có biên độ phổ lớn hơn và nhỏ hơn ngưỡng nghe tuyệt đối. Những thành phần tần số có biên độ phổ lớn hơn ngưỡng nghe tuyệt đối được mã hóa và loại bỏ những thành phần tần số có biên độ phổ nhỏ hơn ngưỡng nghe tuyệt đối. Phổ của tín hiệu âm thanh chứa nhiều hài, mỗi hài gọi là một tone. Căn cứ vào ngưỡng nghe tuyệt đối, tai người nhạy nhất đối với những tone âm thanh ở vùng tần số từ Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 40 1968,8Hz đến 4875Hz. Trong khoảng này, những tone có SPL dưới 0dB tai người vẫn có khả năng nghe thấy. Như vậy, không nén âm thanh trong vùng tần số này, dùng bộ lọc tách riêng vùng tần số 2kHz đến 4kHz để mã hóa. 2- Hiện tượng che âm thanh: Do cấu trúc của tai người làm xuất hiện hiệu ứng che âm thanh (masking sound). Che âm thanh là một hiện tượng cơ bản trong quá trình cảm nhận âm thanh của tai người[1]. Tai người có thể không nghe được một tone âm thanh biên độ nhỏ hơn, khi có một tone âm thanh bên cạnh có biên độ lớn hơn. Ta nói rằng tone âm thanh biên độ nhỏ bị che bởi tone âm thanh biên độ lớn hơn. Tone âm thanh biên độ lớn hơn gọi là tone che (masker), tone âm thanh biên độ nhỏ hơn gọi là tone bị che (maskee). Đơn giản có thể hiểu hiệu ứng che là âm lớn át âm bé. Tone che tạo ra đường cong che, chẳng khác nào chính tone che làm ngưỡng nghe nâng lên ở vùng tần số xung quanh nó (hình 2). Tai người không nghe được tone (hay tạp âm) nằm dưới ngưỡng che. a- Che biên độ (amplitude masking)[1]: Với các tone âm thanh có tần số gần nhau, tone có biên độ lớn sẽ che tone có biên độ nhỏ hơn. Khi các tone đó xuất hiện đồng thời thì các tone lớn hơn có thể làm mờ hoàn toàn các tone yếu. Ví dụ, tone 500Hz có thể che tone 600Hz yếu hơn, như vậy có thể bỏ qua tone 600Hz. Che biên độ còn gọi là che đồng thời. Đường cong che đồng thời không đối xứng, mở rộng hơn về phía tần số cao (hình 2). Nghĩa là, các tone tần số thấp che các tone tần số cao dễ hơn, nhưng ngược lại thì khó hơn. Các masker có SPL thấp chỉ có tác dụng che trong một dải tần tương đối hẹp. Tuy nhiên, nếu SPL của masker tăng thì đường cong ngưỡng che được mở rộng, đặc biệt là mở rộng hơn về phía tần số cao. Che đồng thời tăng khi tần số của các tone càng gần nhau. Ví dụ, trong khi đàm thoại có âm thanh của tàu hỏa đi qua, lúc đó âm thanh của con tàu che mờ âm thanh đàm thoại. b- Che thời gian (temporal masking)[1]: Xuất hiện khi nghe các tone gần nhau về thời gian nhưng không đồng thời. Một tín hiệu có thể bị che bởi tạp âm (hay tín hiệu khác) xuất hiện muộn hoặc sớm hơn. Nói một cách khác, tone lớn hơn xuất hiện trước hoặc sau tone yếu hơn đều có khả năng che tone yếu hơn. Che thời gian tăng khi thời điểm xuất hiện các tone càng gần nhau. Che thời gian giảm khi khoảng tồn tại của tone che giảm. Hiện tượng che càng lớn khi hai tone âm thanh càng gần nhau hơn, cả miền tần số và miền thời gian. Như vậy, che đồng thời tốt hơn che thời gian vì các âm thanh xuất hiện cùng một lúc. Che đồng thời hiệu quả hơn khi tần số của tín hiệu bị che bằng hoặc lớn hơn tần số của tín hiệu che. Hình 1: Đường cong ngưỡng nghe tuyệt đối của tai người phụ thuộc vào tần số 2 4 6 8 10 11.25 -10 0 10 20 30 40 50 60 70 Frequency (kHz) S P L Vùng nghe thấy Vùng không nghe thấy Dải tần của âm thanh thoại 2 4 6 8 10 11.25 -10 0 10 20 30 40 50 60 70 Frequency (kHz) S P L Vùng không nghe thấy Đường cong che Tone che Tone bị che Hình 2: Hiện tượng che âm thanh của tai người Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 41 Trong che thời gian, masker có thể che những tone xuất hiện muộn hơn trong khoảng thời gian tương đối lớn (xấp xỉ 15ms) sau khi masker đã kết thúc. Trong khi đó, che tone âm thanh xuất hiện sớm hơn, hiệu quả chỉ trong khoảng 2ms đến 3ms trước khi tone che xuất hiện. Như một sự lựa chọn, não bộ xử lý những âm thanh to nhanh hơn các âm thanh yếu. Âm thanh nằm dưới ngưỡng che đó sẽ không nghe thấy được. Bộ mã hoá cảm giác (Psycho-acoustic model) phải thiết kế sao cho tạp âm và nhiễu nằm dưới ngưỡng che. 3- Phân bố dải tới hạn của tai người: Tai người cảm nhận âm thanh theo thang tần số[1], có thể coi tai người như bộ phân tích Fourier. Do cấu trúc, tai người cộng hưởng cục bộ trong những khoảng tần số nhất định. Những dải tần số này gọi là dải tới hạn (critical band). Trong dải tần nghe thấy của tai người từ 20Hz đến 20kHz, Eberhard Zwicker đã nghiên cứu tìm ra 25 dải tới hạn (hình 3). Độ rộng dải tới hạn cbf (Hz) xấp xỉ theo biểu thức (1)[1], [2].  cb 0f (Hz) 24,7 4,37f (kHz) 1   (1) Trong đó, f0 là tần số trung tâm tính bằng kHz. Các dải tới hạn chủ yếu tập trung ở miền tần số thấp. Tức là, tai người phân giải tần số thấp tốt hơn miền tần số cao. Một dải tới hạn có độ rộng 1 Bark, Bark là tên của nhà vật lý người Đức: Georg Heinrich Barkhausen. Bark là đơn vị đo dải tới hạn (hay còn gọi là đơn vị của tần số cảm giác). Chuyển từ thang tần số thông thường f(Hz) sang thang tần số cảm giác Bark theo biểu thức (2). Dùng Bark thì phổ vật lý có thể chuyển thành phổ tâm lý [1], [2]. 2 5 76.f f Bark 13.arctg 3,5.arctg 750010              (2) Âm thanh thoại chiếm 17 dải tới hạn (bảng 1). Do đó, ta phân chia dải tần tín hiệu âm thanh thoại thành các dải con phù hợp với phân bố của các dải tới hạn, để tăng hiệu quả nén dữ liệu. 4- Phân bố năng lượng âm thanh: Năng lượng âm thanh phân bố giảm dần từ miền tần số thấp đến miền tần số cao. Đặc biệt, năng lượng âm thanh phân bố theo thang tần số Octave (thang tần số lôgarit)[1]. Số Octave (ký hiệu là Oct) tương ứng với tần số f(Hz) theo biểu thức (3). 2 cn(Oct) log f (Hz) / f (Hz) (3) Bảng 1: Âm thanh thoại ứng với 17 dải tới hạn TT Fmax(Hz) cb (Hz) F0 (Hz) Dải con 1 100 100 50 Dải con thứ nhất 2 200 100 150 3 300 100 250 4 400 100 350 5 510 110 450 6 630 120 570 7 770 140 700 8 920 150 840 9 1080 160 1000 10 1270 190 1170 Dải con thứ hai 11 1480 210 1370 12 1720 240 1600 13 2000 280 1850 14 2320 320 2150 Dải con thứ ba 15 2700 380 2500 16 3150 450 2900 17 3700 550 3400 Như vậy, một Octave tương ứng với biến thiên gấp 2 lần về tần số so với tần số chuẩn fc. Ví dụ, chọn fc=20Hz, thì giá trị tần số tương ứng với số Octave cho trong bảng 2. Dải tần nghe thấy của tai người từ 20Hz đến 20kHz chiếm khoảng 10 Oct. Âm thanh thoại chiếm gần 8 Oct. Hình 3: Phân bố 25 dải tới hạn của tai người 20kHz 0 Hz 8 dải tới hạn miền tần cao 17 dải con tương ứng với dải tần âm thanh thoại. 4kHz Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 42 Bảng 2: Quan hệ giữa số đo tần số (Hz) và (Oct) f(Hz) n(Oct) f(Hz) n(Oct) f(Hz) n(Oct) 20 0 320 4 5120 8 40 1 640 5 10240 9 80 2 1280 6 20480 10 160 3 2560 7 NÉN ÂM THANH THOẠI DỰA VÀO NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN Với âm thanh thoại chiếm dải tần [0, 4kHz], tương ứng với 17 dải tới hạn, chiếm 8 Octave (80% năng lượng âm thanh). Dựa vào ngưỡng nghe tuyệt đối, ta đưa ra những nhận xét sau đây: i) Dải tần [0, 1kHz] tai người rất kém nhạy, SPL trung bình để tai người nghe thấy là: 10,36dB. ii) Dải [1kHz, 2kHz] tai người tương đối nhạy, SPL trung bình là: 1,86dB. iii) Dải [2kHz, 4kHz] tai người rất nhạy với khoảng này nên lọc riêng và thực hiện mã hóa không nén. Qua phân tích, ta phân chia dải tần của tín hiệu âm thanh thoại thành 3 dải con (hình 4) để xử lý riêng biệt. Dải con thứ nhất [0, 1 kHz] bao phủ 9 dải tới hạn. Dải con thứ hai [1, 2 kHz] bao phủ 4 dải tới hạn. Dải con thứ ba [2, 4 kHz] bao phủ 4 dải tới hạn (bảng 1). Để phân chia dải tần âm thanh thoại thành 3 dải con, mỗi dải có có độ rộng như vậy, ta dùng băng lọc Wavelet nhiều nhịp không đối xứng, đảm bảo điều kiện khôi phục hoàn hảo (hình 5). Phân tích Wavelet là lý thuyết tổng quát. Bài báo đã khai thác phân tích Wavelet kết hợp với đặc tính âm thanh thoại và đặc tính nghe của tai người để nén âm thanh thoại. Đối với phân tích Wavelet chỉ có hai dạng phân tích đối xứng và phân tích không đối xứng. Ở đây ta dùng phân tích Wavelet không đối xứng [3], [4]. Sau khi phân tích tín hiệu âm thanh thoại thành 3 dải con, tiến hành so sánh phổ của tín hiệu mỗi dải con với ngưỡng nghe tuyệt đối để loại bỏ thành phần nằm dưới ngưỡng nghe. Những thành phần nằm trên ngưỡng nghe tuyệt đối được mã hóa cũng với 8bits/mẫu. Ví dụ lấy một file tiếng nói, xác định phổ của nó bằng phân tích Fourier, sau đó so sánh với ngưỡng nghe tuyệt đối để loại bỏ những thành phần phổ tín hiệu nằm dưới ngưỡng nghe tuyệt đối (hình 6). Kết quả trong bảng 3. Dải con thứ 1 loại bỏ 16 vạch phổ. Dải con thứ 2 loại bỏ 6 vạch phổ. Dải con thứ 3 không loại bỏ vạch phổ nào. Vị trí những vạch phổ bị loại bỏ thể hiện qua các chỉ số phổ. KẾT QUẢ ĐẠT ĐƯỢC Mỗi dải con được cấp phát một số bít nhất định, tùy thuộc vào năng lượng tín hiệu của dải con đó. Với 2 i  là phương sai của tín hiệu a/ Băng lọc phân tích HPF LPF 2 2 HPF LPF 2 2 Dải tần 3 Dải tần 2 Dải con 1 Tín hiệu vào Hình 5: Băng lọc Wavelet chia dải tần âm thanh thoại thành 3 dải con HPF LPF 2 2 HPF LPF 2 2 b/ Băng lọc tổng hợp Dải tần 3 Dải tần 2 Dải tần 1 Tín hiệu ra 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4 -10 0 10 20 30 40 50 60 70 S P L Frequency (kHz) Dải con 1 Dải con 2 Dải con 3 Hình 4: Phân chia dải tần âm thanh thoại thành 3 dải con Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 43 dải con thứ i, số bít trung bình trên một mẫu tín hiệu cấp cho dải con thứ i là bTBi (bít/mẫu) và được tính theo biểu thức (4) [5], [7].   2 i TBi TB 2 1M 1 2 M i i 0 1 b b log 2       (4) Bảng 3: Những thành phần phổ bị loại bỏ Chỉ số phổ f(Hz) SPL Biên độ phổ bị loại bỏ Dải con 1 23.44 68.00 9.21880 Dải con 1 2 46.88 42.10 19.52500 3 70.31 30.43 4.84400 4 93.75 24.17 7.85080 5 117.19 20.22 12.62420 6 140.63 17.47 8.69940 7 164.06 15.44 9.90120 8 187.50 13.87 7.78200 9 210.94 12.62 9.16940 11 257.81 10.74 7.91280 12 281.25 10.01 8.34380 13 304.69 9.39 0.82224 14 328.13 8.84 5.23280 17 398.44 7.56 5.79460 20 468.75 6.62 5.73560 25 585.94 5.50 4.62520 27 632.81 5.76 2.01840 Dải con 2 30 703.13 4.71 0.79930 39 914.06 3.70 1.47098 40 937.50 3.61 1.23638 41 960.94 3.51 1.49474 53 1359.40 2.17 0.75774 Đánh giá chất lượng của bộ mã hoá dải con thông qua méo của tín hiệu ra so với tín hiệu vào, còn gọi là lỗi khôi phục. Lỗi khôi phục được đánh giá qua lỗi trung bình bình phương, biểu thức (5) [6], [7]. 2 E x(n)-y(n)     (5) Trong đó, x(n) là tín hiệu vào, y(n) là tín hiệu sau khi khôi phục. Việc cấp phát bít phải tối thiểu hóa được lỗi khôi phục, với điều kiện ràng buộc là số lượng bít trung bình TBb (bít/mẫu) cho trước. Với c là một hằng số phụ thuộc vào tính thống kê của nguồn tín hiệu, chọn c 0,5 3  [7], lỗi khôi phục trong mã hoá dải con M kênh tính theo biểu thức (6)[7]:  TB i 1M 1 2b 2 n i i 0 c.M.2               (6) Giải pháp nén âm thanh thoại trong bài báo này đã chọn M=3, các hệ số phân chia n0 = 4, n1 = 4, n2 = 2. Do đó, lỗi khôi phục tính theo biểu thức (7).      TB 1 1 1 2b 2 2 24 4 2 0 1 23. 3.2 2      (7) Trên cơ sở biểu thức (4) và (6), dùng chương trình Matlab áp dụng với 100 file âm thanh thoại khác nhau, để xác định hiệu quả nén tín hiệu. Trong trường hợp cùng lỗi khôi phục =0,2024x10-6, chỉ cần số bít mã hóa trung bình (tính cho 100 file âm thanh thoại) là 7.00829 bít/mẫu (7bít/mẫu), trong khi đó âm thanh thoại đang dùng 8bít/mẫu. Như vậy tốc độ bít sau khi nén là: 7bít/mẫux8kHz56kbps. Do đó, hiệu quả nén đạt (64-56)/64=12,5%. Giá trị cụ thể số bít trung bình cấp cho 40 file âm thanh thoại đầu tiên cho trong bảng 4. KẾT LUẬN Âm thanh và những đặc tính nghe của tai người rất phức tạp. Năng lượng âm thanh giảm dần từ miền tần thấp đến miền tần số cao, phân bố năng lượng phổ theo Octave. Do cấu trúc của tai người xuất hiện các dải tới hạn, hiện tượng che âm thanh theo tần số và theo thời gian. Những cơ sở khoa học đó, nếu khai thác triệt để sẽ tạo ra những thuật toán xử lý âm thanh cho tỷ lệ nén cao. Bài báo đã vận dụng những đặc tính đó trong việc chia dải tần âm thanh thoại thành 3 dải con để xử lý riêng biệt, hiệu quả nén dữ liệu đạt khoảng 12,5%. Với hướng nghiên cứu này, tác giả đã 0 2 4 -10 0 10 20 30 40 50 60 70 Frequency (kHz) S p e c tr u m Hình 6: So sánh phổ tín hiệu với ngưỡng nghe tuyệt đối của tai người Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 44 giới thiệu những giải pháp mã hóa nén âm thanh với số dải con khác nhau và hệ số phân chia không theo Wavelet cho hiệu quả nén dữ liệu khác nhau, tùy thuộc vào các ứng dụng cụ thể. Các kết quả đó đã được giới thiệu trong các tạp chí và hội nghị khoa học trong và ngoài nước. Bảng 4: Số bít trung bình cấp cho các file âm thanh File âm thanh Số bít trung bình File âm thanh Số bít trung bình 1 7.03 21 7.06 2 6.97 22 6.98 3 7.09 23 6.98 4 7.01 24 6.98 5 7.02 25 7.14 6 6.99 26 6.97 7 6.98 27 7.20 8 6.98 28 7.02 9 6.97 29 6.97 10 7.14 30 6.98 11 6.97 31 6.99 12 6.98 32 6.99 13 7.46 33 6.98 14 6.97 34 7.03 15 6.97 35 6.97 16 6.97 36 7.09 17 7.01 37 6.98 18 7.10 38 7.02 19 7.00 39 6.97 20 6.97 40 7.01 TÀI LIỆU THAM KHẢO 1. Ken C.Pohlmann (1995), Principles of digital audio, 3rd edition by McGraw-Hill Book Company. 2. Hector Perez Meana (2007), Advances in audio and speech signal proccessing-Technologies and applications, Published in the USA by Idea Group Publishing. 3. Peter Lee (2003), Wavelet filter banks in perceptual audio coding, Waterloo, Ontario, Canada. 4. PGS-TS Nguyễn Quốc Trung (2001), Xử lý số tín hiệu và lọc số, tập 1 và 2, Nxb khoa học và kỹ thuật Hà nội. 5. Aldiel Ben-Shalom, Michael Werman, Improved low bit rate audio compression using reduced rank ICA instead of psychoacoustic modeling, Hebrew University Jerusalem, Israel. 6. Fabrice Labeau, Luc Vandendorpe, Coding gain and bit allocation for non critically decimated paraunitary filter banks, UCL Communications and Remote Sensing Laboratory, Belgium. 7. Martin Vetterli & Jelena Kovacevic (2007), Wavelets and Subband Coding, Originally published by Prentice Hall PTR, Englewood Cliffs, New Jersey. SUMAMRY COMPRESSING TELEPHONE SPEECH CONSIDERING THE ABSOLUTE THRESHOLD OF HEARING AND THE DISTRIBUTION OF CRITICAL BANDS OF HUMAN EARS Nguyen Xuan Truong * Broadcasting College I To economize the frequency spectrum, in telephone communication, the maximum frequency of speech is only 4 kHz. In that frequency spectrum range [0, 4kHz], the human ears can only hear the tones with enough high spectrum energy, higher than hearing thresholds. Moreover, the tones with lower spectrum energy appearing near (both frequency and time domains) the tones with higher spectrum energy are able to be masked, the human ears cannot hear them. This paper proposes a method to compress telephone speech with almost no loss of sound quality. It is based on the absolute threshold of hearing and distributed to critical bands of the human ears. The telephone speech spectrum is splited into 3 subbands, each subband covers some critical bands of human ear. In each subband, the tones not heard by human ears are omitted. The subbands have lower spectrum energy coded with the fewer bit number and vice versa. Keywords: Subband Coding (SBC), Sound Pressure Level (SPL), Tone Masker, Tone Maskee. Ngày nhận bài:12/3/2015; Ngày phản biện:31/3/2015; Ngày duyệt đăng: 31/5/2015 Phản biện khoa học: TS. Phùng Trung Nghĩa – Trường Đại học Công nghệ Thông tin & Truyền thông - ĐHTN * Tel: 0913 067429, Email: nguyenxuantruong.vov@gmail.com Nitro PDF Software 100 Portable Document Lane Wonderland

Các file đính kèm theo tài liệu này:

  • pdfbrief_51678_55529_1542016104250file6_0119_2046712.pdf