Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
– Giảm gần 50% lượng dữ liệu
– Không đảm bảo thông tin về pha của tín hiệu
– Có thể cảm nhận một số vấn đề méo tín hiệu
– Dùng trong các ứng dụng có tốc độ bit thấp
97 trang |
Chia sẻ: linhmy2pp | Ngày: 19/03/2022 | Lượt xem: 205 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Truyền thông đa phương tiện - Chương 2: Kỹ thuật Audio & Video - Trần Bá Nhiệm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
CHƯƠNG 2: KỸ THUẬT AUDIO &
VIDEO
Nội dung
• Tổng quan
• Kỹ thuật audio
• Kỹ thuật video
Trần Bá Nhiệm Truyền thông đa phương tiện 2
Tổng quan
• Âm thanh
– Dạng lan truyền của sóng trong không gian
– Sóng âm khi đến tai người nghe, đập vào màng nhĩ,
làm cho người đó cảm nhận được sự rung động này
– Con người có khả năng phân biệt với các âm thanh
khác dựa vào một số đặc tính như tần số, nhịp điệu,
mức áp lực,
• Mục đích của các hệ thống audio: xử lý, tạo hiệu
ứng, nén tín hiệu thu nhận từ nguồn
• Audio số: chuỗi các giá trị số được biểu diễn bằng
mức âm thanh theo thời gian
Trần Bá Nhiệm Truyền thông đa phương tiện 3
Ứng dụng
• Các hệ thống thông tin không dây
– Truyền hình độ phân giải cao (High-Density TV)
– Âm thanh quảng bá số (Digital Broadcast Audio DBA)
– Vệ tinh quảng bá trực tiế (Digital Broadcast Satelite
DBS)
• Các môi trường mạng
– Âm thanh theo yêu cầu (chuyển mạch gói, Internet)
– Truyền hình cáp (CATV)
Trần Bá Nhiệm Truyền thông đa phương tiện 4
Ứng dụng
• Các ứng dụng đa môi trường
– CD-R
– Đĩa đa năng số (DVD)
• Cinema
– Dolby AC-3 (5 kênh, 384kbps)
– APT-x100
• Lưu trữ khối
– Minidisc
– DCC
Trần Bá Nhiệm Truyền thông đa phương tiện 5
Audio số
• Hệ thống audio tương tự và số
– Hệ thống audio tương tự gặp phải một số vấn đề
khi xử lý tín hiệu như khả năng của linh kiện (về
mặt tần số), lưu trữ, phức tạp, từ đó dẫn đến
méo phi tuyến cao, SNR (Signal Noise Ratio) bé
– Hệ thống audio số có nhiều ưu điểm trong thu
nhận, hiệu chỉnh, xử lý và phát lại. Các kỹ thuật
nhận dạng và tổng hợp phát triển nhanh chóng,
tương thích máy tính và con người
Trần Bá Nhiệm Truyền thông đa phương tiện 6
Audio số
• Ưu điểm của audio số:
– Độ méo tín hiệu nhỏ (0,01%)
– Dải động âm thanh lớn gần mức tự nhiên (>90dB)
– Dải tần rộng hơn (20Hz đến 20kHz)
– Đáp tuyến tần số bằng phẳng
– Cho phép ghi âm nhiều lần mà không giảm chất lượng
– Lưu trữ, xử lý thuận tiện, dễ dàng
– Tăng dung lượng kênh truyền
– Khả năng xử lý bằng hệ phi tuyến
Trần Bá Nhiệm Truyền thông đa phương tiện 7
Quá trình thu nhận audio số
Trần Bá Nhiệm Truyền thông đa phương tiện 8
Rời rạc hóa
• Các hệ thống liên tục có nhiều nhược điểm
như cồng kềnh, không hiệu quả và chi phí cao.
• Các hệ thống truyền tin rời rạc có nhiều ưu
điểm hơn, khắc phục được những nhược
điểm trên của các hệ thống liên tục và đặc biệt
đang ngày càng được phát triển và hoàn thiện
dần những sức mạnh và ưu điểm của nó.
• Rời rạc hoá thường bao gồm hai loại: Rời rạc
hoá theo trục thời gian, còn được gọi là lấy
mẫu (sampling) và rời rạc hoá theo biên độ,
còn được gọi là lượng tử hoá (quantize).
Trần Bá Nhiệm Truyền thông đa phương tiện 9
Lấy mẫu và lượng tử hóa
• Lấy mẫu và giữ mức: là quá trình rời rạc hóa
tín hiệu về mặt thời gian và giữ cho biên độ
trong khoảng thời gian lấy mẫu không đổi
• Lượng tử hóa: là quá trình rời rạc tín hiệu về
mặt biên độ. Tại mỗi mẫu, biên độ được chia
thành các mức gọi là các mức lượng tử
Trần Bá Nhiệm Truyền thông đa phương tiện 10
Rời rạc hóa
• Lấy mẫu (Sampling)
– Lấy mẫu một hàm là trích ra từ hàm ban đầu các
mẫu được lấy tại những thời điểm xác định.
– Vấn đề là làm thế nào để sự thay thế hàm ban đầu
bằng các mẫu này là một sự thay thế tương
đương, điều này đã được giải quyết bằng định lý
lấy mẫu nổi tiếng của Shannon.
Trần Bá Nhiệm Truyền thông đa phương tiện 11
Rời rạc hóa (tt)
• Định lý lấy mẫu của Shannon
– Một hàm s(t) có phổ hữu hạn, không có thành
phần tần số lớn hơn max (= 2fmax) có thể được
thay thế bằng các mẫu của nó được lấy tại những
thời điểm cách nhau một khoảng t /max, hay
nói cách khác tần số lấy mẫu F 2fmax
s(t) Chứng minh:
t /
smax max
t 1 / (2fmax)
1/ t 2 fmax
f ≥ 2 f
smin max
t hay F 2fmax
Trần Bá Nhiệm Truyền thông đa phương tiện 12
Kỹ thuật truyền tín hiệu
• Tốc độ bit (Bit rate):
D = 1/Tb bit/s
trong đó Tb là thời gian truyền 1 bit
• Tốc độ điều chế (Modulation rate): số lượng
tín hiệu truyền trong mỗi giây
R = 1/Ts symbol/s hoặc baud/s
trong đó Ts là thời gian truyền 1 tín hiệu
Trần Bá Nhiệm Truyền thông đa phương tiện 13
Kỹ thuật truyền tín hiệu
• Định luật Shannon cho biết khả năng của kênh
truyền băng lọc thông thấp có ảnh hưởng của
nhiễu trắng Gaussian:
C = B log2(1 + SNR) bit/s
trong đó B là băng thông (Hz), S: năng lượng của
tín hiệu – signal (W), N: năng lượng của nhiễu -
thermal noise (W), SNR là tỷ số tín hiệu/nhiễu,
C: giới hạn trên của tốc độ truyền bit
Trần Bá Nhiệm Truyền thông đa phương tiện 14
Kỹ thuật truyền tín hiệu
• Công thức liên hệ giữa tốc độ điều chế và tốc
độ bit là:
D = R x n
• Định lý Nyquist cho biết giới hạn trên của tốc
độ điều chế kênh có băng lọc thông thấp:
R 2B
trong đó B là băng thông của kênh
Trần Bá Nhiệm Truyền thông đa phương tiện 15
Rời rạc hóa (tt)
• Lượng tử hoá (Quantize)
– Biên độ của các tín hiệu thường là một miền liên
tục (smin, smax). Lượng tử hoá là phân chia miền
này thành một số mức nhất định, chẳng hạn là smin
= s0, s1, ..., sn = smax và qui các giá trị biên độ không
trùng với các mức này về mức gần với nó nhất.
– Việc lượng tử hoá sẽ biến đổi hàm s(t) ban đầu
thành một hàm s’(t) có dạng hình bậc thang. Sự
khác nhau giữa s(t) và s’(t) được gọi là sai số
lượng tử. Sai số lượng tử càng nhỏ thì s’(t) biểu
diễn càng chính xác s(t).
Trần Bá Nhiệm Truyền thông đa phương tiện 16
Rời rạc hóa (tt)
s(t)
smax
smin
t
Trần Bá Nhiệm Truyền thông đa phương tiện 17
Dither
• Nguyên nhân: lượng tử hóa méo tín hiệu.
Tín hiệu có biên độ càng nhỏ thì méo lượng tử
càng cao
• Khắc phục: cộng âm thanh trước khi lấy mẫu
với một tạp âm tương tự ngẫu nhiên hóa
các ảnh hưởng để phân phối đều méo lượng
tử thành các lỗi ngẫu nhiên chứ không tập
trung nhiều vào phần có biên độ thấp
Trần Bá Nhiệm Truyền thông đa phương tiện 18
Dither
• Định nghĩa: dither là một nhiễu được cộng vào tín
hiệu âm thanh
• Mục đích: loại bỏ méo lượng tử
• Cơ sở: dither làm cho tín hiệu âm thanh bị biến
đổi giữa các mức lượng tử gần nhau, điều này
làm giảm độ tương quan của lượng tử hóa tín
hiệu, loại các ảnh hưởng của lỗi và mã hóa các
biên độ tín hiệu thấp hơn một mức lượng tử
• Nhược điểm: cộng nhiễu vào tín hiệu
Trần Bá Nhiệm Truyền thông đa phương tiện 19
Dither
Trần Bá Nhiệm Truyền thông đa phương tiện 20
Mã hóa và mã hóa kênh
• Mã hóa:
– Là quá trình chuyển các mức rời rạc thành một
chuỗi các mẫu số nhị phân (hoặc các hệ đếm khác)
theo một quy luật nhất định
– Sau mã hóa nhị phân ta được tín hiệu điều xung
mã PCM
– tín hiệu PCM không thích hợp để lưu trữ hoặc
truyền dẫn vì vẫn còn tồn tại thành phần một
chiều mã hóa kênh
Trần Bá Nhiệm Truyền thông đa phương tiện 21
Mã hóa và mã hóa kênh
• Tiếng nói cần được chuyển đổi từ hình thức
tương tự sang số để có thể truyền qua mạng
kỹ thuật số
• Thiết bị thực hiện chức năng này được biết
đến với tên gọi codecs (coder/decoder)
• Phương pháp Pulse Code Modulation (PCM)
số hoá tín hiệu tiếng nói bằng cách lấy mẫu tín
hiệu trong các khoảng thời gian đều đặn
Trần Bá Nhiệm Truyền thông đa phương tiện 22
Mã hóa và mã hóa kênh
• Các giai đoạn của PCM
– Lấy mẫu: tạo ra một dãy các mẫu gọi là các xung
PAM (Pulse Amplitude Modulation)
– Lượng tử hoá:
• Tách khoảng biên độ của tín hiệu tiếng nói thành V
mức
• Lượng tử hoá làm méo tín hiệu do phép xấp xỉ
• 128 mức cho chất lượng số hoá tốt
– Mã hoá nhị phân: mã hoá các giá trị được
lượng tử hoá thành dạng nhị phân,
011001100100001101000111100110000011 (4
bit)
Truyền thôngTrần Bá đa Nhiệm phương tiện 23
Mã hóa và mã hóa kênh
Truyền thôngTrần Bá đa Nhiệm phương tiện 24
Mã hóa và mã hóa kênh
• Nhược điểm của PCM là tốc độ bit cao, không
phù hợp với các hệ thống truyền thông không dây
• Differential PCM
– Cho biểu diễn nhị phân của sự chênh lệch giữa các
mẫu liên tiếp
– Giảm được tốc độ bit nếu sự chênh lệch giữa các mẫu
liên tiếp có thể mã hoá sử dụng số bit nhỏ hơn số bit
cho mã hoá chính mẫu
• Adaptive DPCM
– Phán đoán giá trị của mẫu dựa trên giá trị của các
mẫu trước
Trần Bá Nhiệm Truyền thông đa phương tiện 25
Mã hóa và mã hóa kênh
• Mã hóa kênh
– Biến đổi dữ liệu với mục đích đạt được mật độ bit
cao trong giới hạn băng thông của kênh truyền
– Giảm sự tổn hao trong khi truyền hoặc lưu trữ
– Cải thiện dải thông, dữ liệu truyền dẫn có đặc tính
tối ưu
– Làm cho phổ tín hiệu âm thanh số ít méo
Trần Bá Nhiệm Truyền thông đa phương tiện 26
Ghép kênh
• Tín hiệu âm thanh số thường bao gồm nhiều
kênh. Ví dụ: hệ thống âm thanh 5.1 gồm các
kênh trái, phải, trung tâm, trái vòm, phải vòm
và siêu trầm; ngoài ra còn có các tín hiệu mã
phụ, mã đồng bộ,
• Nguyên lý ghép kênh thường được áp dụng đó
là ghép kênh phân chia theo thời gian (TDM),
mỗi kênh sử dụng một khe thời gian được ấn
định trước
Trần Bá Nhiệm Truyền thông đa phương tiện 27
Ghép kênh
Trần Bá Nhiệm Truyền thông đa phương tiện 28
Mã hóa audio cảm quan
• Mục đích
– Biểu diễn chuỗi số ngắn gọn
– Tốc độ bit thấp
– Chất lượng cao
• Động cơ
– Giảm tốc độ dữ liệu
– Giảm chi phí truyền dẫn (băng thông)
– Giảm các yêu cầu lưu trữ
Trần Bá Nhiệm Truyền thông đa phương tiện 29
Mã hóa audio cảm quan
• Các yêu cầu
– Cảm nhận trong suốt
– Độc lập nguồn
– Có khả năng đa kênh
– Độ phức tạp bất đối xứng
– Độ trễ hợp lý
Trần Bá Nhiệm Truyền thông đa phương tiện 30
Mã hóa audio cảm quan
• Mã hóa nguồn không thực tế với tín hiệu
audio, do đó người ta muốn thực hiện phải
tiến hành:
– Khai thác các đặc tính thu được
– Loại bỏ các thành phần không thích hợp với cảm
nhận
– Giảm các dư thừa thống kê
Trần Bá Nhiệm Truyền thông đa phương tiện 31
Mã hóa audio cảm quan
Trần Bá Nhiệm Truyền thông đa phương tiện 32
Tiêu chuẩn lấy mẫu
– Băng thông – Chất lượng
– Tốc độ – Độ trễ
Trần Bá Nhiệm Truyền thông đa phương tiện 33
Băng lọc số
• Là một tập hợp các bộ lọc số có chung đầu vào
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào
• Băng lọc số phân tích là tập hợp các bộ lọc số
j
có đáp ứng tần số Hk(e ) có chung đầu vào và
nhiều đầu ra
Trần Bá Nhiệm Truyền thông đa phương tiện 34
Băng lọc số
• Ngõ ra gồm M tín hiệu Xk(n) chiếm dải tần liên
tiếp nhau gọi là các tín hiệu băng con
(subband)
j j
• Các bộ lọc H0(e ): thông thấp, HM-1(e ): thông
j
cao, Hi(e ): thông dải (với i từ 1 đến M – 2)
Trần Bá Nhiệm Truyền thông đa phương tiện 35
Băng lọc số tổng hợp
• Là tập hợp các bộ lọc số có đáp ứng tần số
j
Gk(e ) có chung đầu ra
j j
• Các bộ lọc G0(e ): thông thấp, GM-1(e ): thông
j
cao, Gi(e ): thông dải (với i từ 1 đến L – 2)
Trần Bá Nhiệm Truyền thông đa phương tiện 36
Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF
(Quadrature Mirror Filter Bank)
• Băng lọc số nhiều nhịp là sự kết hợp của băng
lọc số phân tích, băng lọc số tổng hợp với bộ
phân chia và bộ nội suy
• Với số bộ lọc của băng lọc phân tích và tổng
hợp bằng 2 thì ta có băng lọc số nhiều nhịp 2
kênh
Trần Bá Nhiệm Truyền thông đa phương tiện 37
Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF
(Quadrature Mirror Filter Bank)
• Các bộ lọc H0(ej), G0(ej): thông thấp,
H1(ej), G1(ej): thông cao
• Lý tưởng: = ( )
Trần Bá Nhiệm Truyền thông đa phương tiện 38
Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF
(Quadrature Mirror Filter Bank)
• Nếu ( ) = ( ) và nếu chọn tần số
cắt cho 2 bộ lọc là /2 ta thấy ( ) là
ảnh của ( ) qua gương đặt ở vị trí /2.
Băng lọc nhiều nhịp 2 kênh như vậy gọi là
băng lọc gương cầu phương
• Nếu = c ( − ) giống dạng tín hiệu
ngõ vào thì ta gọi là băng lọc gương cầu
phương khôi phục hoàn hảo PRQMF (Perfect
ReconstructureQMF)
Trần Bá Nhiệm Truyền thông đa phương tiện 39
Mã hóa băng con và cấu trúc bộ lọc
QMF
• Dùng bộ lọc số
• Thuận lợi trong việc nén tín hiệu âm thanh vì
phổ tập trung không đồng đều. Từ đó ta có
được sự phân bố hợp lý, vừa hiệu quả vừa đạt
chất lượng cao
Trần Bá Nhiệm Truyền thông đa phương tiện 40
Cấu trúc dạng cây đơn phân giải
Trần Bá Nhiệm Truyền thông đa phương tiện 41
Cấu trúc dạng cây đa phân giải
Trần Bá Nhiệm Truyền thông đa phương tiện 42
Các phương pháp mã hóa chuyển đổi
• FFT (Fast Fourier Transform)
• DFT (Discrete Fourier Transform)
• DCT (Discrete Cosine Transform)
• MDCT (Modified DCT)
• Wavelets
Trần Bá Nhiệm Truyền thông đa phương tiện 43
DCT (Discrete Cosine Transform)
• DCT là phép biến đổi trực giao, là một thuật
toán hiệu quả cho các đặc tính nén mạnh và
giảm độ tương quan
Trần Bá Nhiệm Truyền thông đa phương tiện 44
MDCT (Modified DCT)
• MDCT là phép biến đổi trực giao tuyến tính
được sửa đổi từ DCT
Trần Bá Nhiệm Truyền thông đa phương tiện 45
Wavelests
• Wavelests có thể được xem như một bộ phân
tích băng con với cây không cân bằng, nghĩa là
các tần số được chia một cách không đồng
nhất
• Băng lọc tương đồng với dải tới hạn
Trần Bá Nhiệm Truyền thông đa phương tiện 46
DWT (DiscreteWaveletTransform)
• Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng
cách định nghĩa một cơ sở trực giao, wavelet
cơ sở:
-m/2 -m
hn.m(t) = 2 h (2 t – n)
Trong đó: n là tỷ lệ, m là độ dời và t là thời gian
• Hệ số n chỉ thị độ rộng của các wavelet và hệ
số vị trí m xác định vị trí của nó. Với hàm mẹ
h(t) ta được một tập hàm wavelet trực giao cơ
sở
Trần Bá Nhiệm Truyền thông đa phương tiện 47
DWT (DiscreteWaveletTransform)
• Trực giao: f(t), g(t) là hai vector thuộc không
gian L2(a, b), t [a, b]. Hai vector là trực giao
khi tích vô hướng của chúng bằng 0
• Cơ sở trực giao: tập các vector {vk} = {v1, , vn}
được gọi là cơ sở trực giao nếu chúng trực
giao từng đôi một và có độ dài bằng 1
Trần Bá Nhiệm Truyền thông đa phương tiện 48
DWT (DiscreteWaveletTransform)
• = mn
• Hay
• Hàm delta:
• Chuyển đổi wavelet:
• Chuyển đổi wavelet ngược:
Trần Bá Nhiệm Truyền thông đa phương tiện 49
Phân tích tâm lý âm học
• Hệ thống thính giác của con người
– Được chú trọng khai thác trong audio cảm quan
– Trong dải 20Hz đến 20kHz thì khả năng nghe
không đồng nhất với các tần số - việc cảm nhận
phụ thuộc vào mức áp lực và tùy thuộc vào từng
người
– Dải 20Hz 20kHz được chia thành các dải con
không đồng nhất và không tuyến tính. Cảm nhận
tốt trong khoảng 2kHz đến 4kHz và ngưỡng nghe
đến ngưỡng đau khoảng 96dB
Trần Bá Nhiệm Truyền thông đa phương tiện 50
Phân tích tâm lý âm học
• Hệ thống thính giác của con người
– Phụ thuộc vào môi trường nghe, với môi trường
nhiễu lớn thì hạn chế khả năng nghe và khả năng
phân biệt các âm thanh khác nhau
– Vậy phân tích tâm lý nghe là xét các vấn đề:
• Độ nhạy của tai, khả năng đáp ứng của các cường độ
khác nhau
• Đáp ứng của tai với các tần số khác nhau
• Nghe một âm khi có mặt một âm khác
Trần Bá Nhiệm Truyền thông đa phương tiện 51
Ngưỡng nghe tuyệt đối
• Ngưỡng nghe tuyệt đối - ATH (Absolute
Theshold of Hearing)
– Thí nghiệm: để một người trong phòng kín, im
lặng, phát âm kiểm tra với tần số xác định (1kHz),
tăng mức âm thanh cho đến khi có thể nghe
được, ghi lại các giá trị và lặp lại với tần số khác
– Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối
– Thử với người khác, ghi kết quả
Trần Bá Nhiệm Truyền thông đa phương tiện 52
Dải tới hạn (critical bankwidth)
• Fletcher thí nghiệm và thấy việc nghe của con
người giống như dùng các bộ lọc tâm sinh lý
có độ rộng gần bằng một giá trị tới hạn và
Fletcher gọi độ rộng của bộ lọc tới hạn là dải
tới hạn
• Dải tới hạn biểu diễn công suất xác định của
tai cho các tần số hay dải tần số liên tục
Trần Bá Nhiệm Truyền thông đa phương tiện 53
Dải tới hạn (critical bankwidth)
• Các thí nghiệm cho thấy rằng:
– Với các tần số che nhỏ hơn 500Hz thì dải tới hạn
không đổi với độ rộng khoảng 100Hz
– Với các tần số che lớn hơn 500Hz thì dải tới hạn có
độ rộng tăng tương đối tuyến tính theo tần số
• Vậy thang tần số không tuyến tính thang
bark (Barkhausen)
• Flecher chia băng thông âm thanh thành 25
dải tới hạn
Trần Bá Nhiệm Truyền thông đa phương tiện 54
Dải tới hạn (critical bankwidth)
Trần Bá Nhiệm Truyền thông đa phương tiện 55
Dải tới hạn (critical bankwidth)
• Bark là đơn vị để biểu diễn một dải tới hạn, 1
bark = 1 độ rộng dải tới hạn
• Công thức chuyển đổi:
• Hoặc: 1 bark = 13 arctg(0,76f) + 3,5
arctg(f/7500)
• Hoặc: 1 bark = 13 arctg(0,76f) + 3,5
arctg(f2/65,25)
Trần Bá Nhiệm Truyền thông đa phương tiện 56
Kỹ thuật che (masking)
• Con người khi nghe một âm với sự có mặt của
một âm khác sẽ cảm nhận yếu đi khi âm này
có tần số gần với âm cần nghe hoặc biên độ
lớn
• Che tần số (frequency masking) :
– Thí nghiệm: Để một người trong phòng kín, phát
ra một âm che (maskingtone) với tần số xác định
(1,1kHz) ở một mức nào đó (60dB); tăng mức âm
thanh cho đến khi có thể nghe được; thay đổi âm
kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác
Trần Bá Nhiệm Truyền thông đa phương tiện 57
Kỹ thuật che (masking)
• Che thời gian (temporal masking) :
– Thí nghiệm: Phát ra một âm che với tần số 1kHz,
biên độ 55dB, thêm một âm kiểm tra 1,1kHz, biên
độ 20dB trước và sau âm che. Âm kiểm tra không
thể nghe được (nó đang bị che)
– Lặp lại các mức khác của âm kiểm tra và vẽ
– Với thí nghiệm này, âm 1,1kHz với 20dB bị che
trước khoảng 15ms và che sau khoảng 50ms
Trần Bá Nhiệm Truyền thông đa phương tiện 58
Kỹ thuật che (masking)
• Che thời gian (temporal masking) :
Trần Bá Nhiệm Truyền thông đa phương tiện 59
Kỹ thuật nén audio
• Cơ sở:
– Âm thanh trung thực và chất lượng dịch vụ thỏa
mãn thì tốc độ dòng dữ liệu phải lớn
– Ví dụ: hệ thống âm thanh đa kênh mã hóa 16 bit,
tần số lấy mẫu 48kHz (6 kênh) sẽ có tốc độ
48x16x6=4,5Mbps
– Tốc độ cao khó khăn lưu trữ, truyền dẫn và giá
thành thiết bị; do vậy cần phải nén
Trần Bá Nhiệm Truyền thông đa phương tiện 60
Kỹ thuật nén audio
• Nén không tổn hao
– Khôi phục đúng thông tin ban đầu sau khi giải nén
– Loại bỏ dư thừa thống kê, các thông tin xuất hiện
trong tín hiệu mà có thể dự báo trước
– Tỷ số nén thấp, khoảng 2:1; phụ thuộc vào mức
độ phức tạp của nguồn
– Thường dùng kỹ thuật mã hóa dự đoán trong
miền thời gian
Trần Bá Nhiệm Truyền thông đa phương tiện 61
Kỹ thuật nén audio
• Thuật toán vi sai
– Tín hiệu âm thanh có đặc tính lặp đi lặp lại nên xuất
hiện sự dư thừa số liệu. Thông tin lặp lại sẽ được loại
bỏ trong quá trình mã hóa và được đưa vào lại trong
quá trình giải mã dùng kỹ thuật DPCM
– Các tín hiệu audio đầu tiên được phân tích thành tập
hợp các dải băng con bao gồm một số lượng âm thanh
rời rạc, sau đó DPCM được dùng để dự báo các tín
hiệu lặp lại theo chu kỳ. Nếu dùng ADPCM sẽ cho kết
quả còn tốt hơn nữa
Trần Bá Nhiệm Truyền thông đa phương tiện 62
Kỹ thuật nén audio
• Mã hóa Entropy
– Tận dụng độ dư thừa trong cách miêu tả các hệ số
băng con đã lượng tử hóa nhằm cải thiện tính
hiệu quả của quá trình mã hóa. Các hệ số lượng tử
được gửi đi theo sự tăng dần của tần số
– Kết quả nhận được là bảng mã tối ưu thống kê các
giá trị miền tần số thấp và cao
– Dùng mã hóa Hufman, Lempel-Zip để nén
Trần Bá Nhiệm Truyền thông đa phương tiện 63
Kỹ thuật nén audio
• Nén tổn hao
– Hệ thống thính giác của con người không thể phân
biệt các thành phần phổ có biên dộ nhỏ giữa các
thành phần phổ có biên độ lớn
– Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá
trình nén và chất lượng audio yêu cầu
Trần Bá Nhiệm Truyền thông đa phương tiện 64
Kỹ thuật nén audio
• Nén tổn hao
– Các kỹ thuật:
• Kỹ thuật che đ/v các thành phần tín hiệu trong miền thời
gian và tần số
• Che mức tạp âm lượng tử cho từng âm độ của tín hiệu âm
thanh bằng cách chỉ định số bit vừa đủ để chắc chắn rằng
mức nhiễu lượng tử luôn nằm dưới mức giá trị cần che
• Mã hóa ghép: khai thác độ dư thừa trong hệ thống audio đa
kênh với các thành phần số liệu trong các kênh giống nhau.
Mã hóa một phần số liệu chung trên một kênh và chỉ định
cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại
Trần Bá Nhiệm Truyền thông đa phương tiện 65
MPEG-1
• Được phát triển trên cơ sở phối hợp chuẩn
ISO/IEC 11172
• Dùng tần số lấy mẫu của CD-DA với fs = 32kHz
hoặc 44kHz hoặc 48kHz; mã hóa 16bit/mẫu tín
hiệu
Trần Bá Nhiệm Truyền thông đa phương tiện 66
MPEG-1
• Tốc độ bit: 32 – 768kbps/channel
• Các kiểu: Mono, dual-mono, dual-stereo, joint-
stereo
• Xác định các tham số khác nhau về tốc độ,
dòng số sau khi nén, số mẫu trong header cho
một kênh, cấu trúc thời gian khung, phương
pháp mã hóa dự đoán và các chế độ làm việc
Trần Bá Nhiệm Truyền thông đa phương tiện 67
MPEG-1
Trần Bá Nhiệm Truyền thông đa phương tiện 68
MPEG-1
Trần Bá Nhiệm Truyền thông đa phương tiện 69
MPEG-1
Trần Bá Nhiệm Truyền thông đa phương tiện 70
MPEG-1
• Thuật toán cơ bản
– Tiến hành chia ngõ vào thành 32 băng con bởi các
băng lọc: Lấy 32 mẫu PCM trong cùng một thời
điểm, kết quả là 32 hệ số tần số ở ngõ ra
– Trong MPEG-1 lớp I thì tập 32 giá trị PCM được kết
hợp vào trong khối gồm 12 nhóm 32 mẫu này
– MPEG-1 lớp II và III thì gồm 3 khối 12 nhóm này
– Phân bố bit đảm bảo rằng mọi nhiễu lượng tử
nằm ở dưới các ngưỡng che
Trần Bá Nhiệm Truyền thông đa phương tiện 71
MPEG-1
• Thuật toán cơ bản
– Với mỗi băng con, xác định mức biên độ và mức
nhiễu bằng mô hình tâm sinh lý nghe. SMR (signal
mask rate) được dùng để xác định số bit cho quá
trình lượng tử hóa đ/v mỗi băng con với mục đích
giảm thiểu dung lượng
– Ví dụ: sau khi phân tích, mức của 16 băng con đầu
là:
Trần Bá Nhiệm Truyền thông đa phương tiện 72
MPEG-1
• Thuật toán cơ bản
– Nếu mức của băng con thứ 8 là 60 thì nó che 12dB
ở băng con thứ 7 và 15dB ở băng con thứ 9
– Băng con thứ 7 có mức 10dB<12dB: loại. Băng con
thứ 9có mức 35dB>15dB: gửi đi chỉ có các mức
lớn hơn mức che là được gửi đi thay vì dùng 6
bit để mã hóa, ta chỉ cần dùng 4 bit tiết kiệm
– MPEG LayerI: bộ lọc DCT 1 khung và tần số bằng
phẳng trong mỗi băng con. Mô hình tâm sinh lý
nghe dùng che tần số
Trần Bá Nhiệm Truyền thông đa phương tiện 73
MPEG-1
• Thuật toán cơ bản
– MPEG LayerII: có 3 khung trong bộ lọc (trước, hiện
tại và kế), tổng là 1125 mẫu. Sử dụng bài bit để
che thời gian
– MPEG LayerIII: dùng bộ lọc tới hạn để đáp ứng tốt
hơn. Mô hình tâm sinh lý nghe dùng che thời gian,
che tần số, tính toán độ dư thừa stereo và mã hóa
Huffman
Trần Bá Nhiệm Truyền thông đa phương tiện 74
MPEG-1
• Cấu trúc khung
– Header info: bao gồm 12 bit đồng bộ, 20 bit thông
tin hệ thống chỉ thị tốc độ bit, tần số lấy mẫu,
dạng nhấn, 16 bit CRC với đa thức sinh x16 + x15
+ x2 + 1
Trần Bá Nhiệm Truyền thông đa phương tiện 75
MPEG-1
• Cấu trúc khung
– Side info: có phân bố bit như sau: lớp 1 với 4 bit
tuyến tính cho các băng con, lớp II 4 bit cho các
băng con tần thấp, 3 bit tần trung và 2 bit tần cao;
hệ số tỷ lệ là 6 bit/băng con kết hợp với phân bố
bit và các bit mã hóa cho băng con đó để xác định
giá trị, lớp III mã hóa âm thanh nổi
– Subband sample: 32 x 12 mẫu đối với lớp I và 32 x
36 mẫu đối với lớp II và lớp III
– Aux data: dữ liệu bổ sung
Trần Bá Nhiệm Truyền thông đa phương tiện 76
MPEG-2
• Mở rộng MPEG-1 cho các ứng dụng mới
• Có khả năng áp dụng nhiều tốc độ khác nhau
từ 32 đến 1066kbps. Tần số lấy mẫu có thể
giảm một nửa so với MPEG-1 (16; 22,05;
24kHz)
• Khả năng đa kênh, tốc độ bit mở rộng có thể
lên đến 1 Mbps cho các ứng dụng tốc độ cao.
Cho phép nén đồng thời nhiều kênh
Trần Bá Nhiệm Truyền thông đa phương tiện 77
MPEG-2
• Chất lượng âm thanh tùy thuộc ứng dụng
• Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn
ngữ trong phần bit mở rộng
• Sử dụng khả năng mã hóa cường độ cao, giảm
xuyên âm, mã hóa dự đoán liên kênh và mã hóa
ảo ảnh kênh trung tâm để nhận được tốc độ bit
kết hợp 384kb/s
• Khung được chia làm 2 phần, phần đầu là MPEG-
1 stereo, phần mở rộng MPEG-2 chứa tất cả
những dữ liệu surround khác
Trần Bá Nhiệm Truyền thông đa phương tiện 78
MPEG-2
Trần Bá Nhiệm Truyền thông đa phương tiện 79
MPEG-2
• Mã hóa và giải mã
Trần Bá Nhiệm Truyền thông đa phương tiện 80
MPEG-2
• Mã hóa và giải mã
– Trong đó:
– Với R: phải, L: trái, C: trung tâm, LS: trái vòm, RS:
phải vòm dễ dàng trong mã hóa thuận/nghịch
– Cấu trúc khung
Trần Bá Nhiệm Truyền thông đa phương tiện 81
AC-3 (Dolby Digital)
• Chuyển tải âm thanh đa kênh trong các ứng dụng
như DVD-video, DTV và DBS
• Phát triển từ AC-1, AC-2
• Mã hóa âm thanh từ 1 đến 6 kênh, thông thường
cung cấp âm thanh 5.1 kênh: trái, phải, trung
tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần
số thấp (âm trầm)
• 6 kênh yêu cầu 6 x 48kHz x 18 bit = 5,184 Mb/s
chưa nén có thể được mã hóa tối thiểu với tốc độ
384kb/s (tỷ lệ 13:1)
Trần Bá Nhiệm Truyền thông đa phương tiện 82
AC-3 (Dolby Digital)
• Tuy nhiên AC-3 hỗ trợ tốc độ từ 32 đến
640kb/s
• Cung cấp khả năng tự chọn mức âm thanh cho
thính giả
• Cho phép giảm dữ liệu bằng quá trình lượng
tử biểu diễn trong miền tần số của tín hiệu âm
thanh
Trần Bá Nhiệm Truyền thông đa phương tiện 83
AC-3 (Dolby Digital)
• Bộ mã hóa dùng băng lọc phân tích chuyển các
mẫu PCM thành các hệ số trong miền tần số. Mỗi
hệ số biểu diễn ký hiệu mũ nhị phân gồm phần số
mũ và phần định trị. Các tập số mũ được mã hóa
thô qua phổ tín hiệu và xem như là đường bao
phổ. Dùng phân phối bit xác định số bit cần mã
hóa mỗi định trị dựa vào đường bao phổ. Đường
bao phổ và các định trị được lượng tử cho 6 khối
âm thanh (1536 mẫu âm thanh) được định dạng
thành khung rồi chuyển đi
Trần Bá Nhiệm Truyền thông đa phương tiện 84
AC-3 (Dolby Digital)
• Mã hóa
Trần Bá Nhiệm Truyền thông đa phương tiện 85
APT-X100
• Cho tỷ lệ nén 4:1
• Dùng để truyền dẫn, lưu trữ các tín hiệu
mono, stereo hay đa kênh chất lượng cao
• Không hẳn dựa vào mô hình tâm sinh lý nghe,
cũng không trực tiếp loại các thành phần
không thích hợp trong tín hiệu audio mà ngầm
hiểu một mô hình đáp ứng nghe bằng việc
phân phối ít bit ở tần số cao
Trần Bá Nhiệm Truyền thông đa phương tiện 86
APT-X100
• Thuật toán hoàn toàn trong miền thời gian,
dùng mã hóa dự đoán tuyến tính trong các
băng con
• Hoạt động với bất kỳ tần số lấy mẫu nào với
ngõ ra 16 bit/từ mẫu
• Tín hiệu audio chia thành 4 băng con với băng
thông đều như nhau dùng các bộ lọc QMF
Trần Bá Nhiệm Truyền thông đa phương tiện 87
APT-X100
• Tín hiệu được phân tích trong miền thời gian:
dùng mã hóa dự đoán tuyến tính ADPCM để
lượng tử mỗi băng theo nội dung và loại bỏ độ
dư thừa trong các băng con
• Mã hóa sự khác biệt của mẫu hiện thời và
mẫu trước
• Giải mã được tiến hành ngược lại cách trên
Trần Bá Nhiệm Truyền thông đa phương tiện 88
Mã hóa âm thanh nổi
Trần Bá Nhiệm Truyền thông đa phương tiện 89
Mã hóa âm thanh nổi
• Mã hóa Trái-Phải (LR)
– Không loại bỏ độ dư thừa
– Các kênh riêng biệt được mã
hóa độc lập
– Ngưỡng che không liên quan
– Hiệu quả với âm thanh rất
khác biệt giữa kênh trái và
kênh phải
Trần Bá Nhiệm Truyền thông đa phương tiện 90
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Khuynh hướng của Join Stereo không chỉ là kết
hợp các định dạng của chuẩn nén MP3 (MPEG-1
lớp III) mà còn kết hợp các dạng nén khác như
MPEG và AAC
– Middle-Side Stereo xét 2 kênh dữ liệu theo 2
phương diện khác nhau. Thay vì lưu trữ một dữ
liệu âm thanh theo 2 kênh Left-Right ta chỉ cần lưu
trữ một chuỗi tương tự số trung bình Average và
sự sai biệt Difference (của Left và Right)
Trần Bá Nhiệm Truyền thông đa phương tiện 91
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Middle-Side có thể lấy Middle=(L+R)/2 và
Side=(LR)/2
– Dấu của Side rất quan trọng, nếu dương thì nghĩa
là tín hiệu L lớn hơn R
– Hoàn toàn có thể tái tạo 2 kênh L, R như sau:
L=Middle + Side, R=Middle Side
Trần Bá Nhiệm Truyền thông đa phương tiện 92
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Ưu điểm là sự khác biệt tương đối của các tín
hiệu audio của các kênh L và R. Kết quả kênh
Middle lớn hơn nhiều so với Side. Việc mã hóa
kênh Side dùng ít bit hơn để giải phóng tài nguyên
để có thể triển khai hữu hiệu hơn trên kênh
Middle. Khi tải định dạng lại L, R thì kết quả sẽ thể
hiện tín hiệu gốc ngõ vào “thực” hơn
Trần Bá Nhiệm Truyền thông đa phương tiện 93
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Tính chất:
• Kênh Side dùng số bit rất ít
• Loại bỏ độ dư thừa cho tín hiệu mono trong thực tế
• Có thể được áp dụng trong miền thời gian lẫn tần số
• Độ lợi mã hóa cao phụ thuộc tín hiệu
– Biến đổi ngược: tổng/hiệu chuẩn hóa
Trần Bá Nhiệm Truyền thông đa phương tiện 94
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
– Mục đích: tối thiểu hóa thông tin stereo để nhận
được tốc độ bit thấp nhất nếu có thể
– Mã hóa tín hiệu tổng các kênh+ các hướng của
kênh. Truyền đường bao, sau đó là tỷ lệ theo các
kênh
– Kiểm chứng dựa trên việc cảm nhận của con
người kém đối với tần số trên 3kHz
– Biên độ và pha không quan trọng
Trần Bá Nhiệm Truyền thông đa phương tiện 95
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
– Giảm gần 50% lượng dữ liệu
– Không đảm bảo thông tin về pha của tín hiệu
– Có thể cảm nhận một số vấn đề méo tín hiệu
– Dùng trong các ứng dụng có tốc độ bit thấp
Trần Bá Nhiệm Truyền thông đa phương tiện 96
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
Trần Bá Nhiệm Truyền thông đa phương tiện 97
Các file đính kèm theo tài liệu này:
- bai_giang_truyen_thong_da_phuong_tien_chuong_2_ky_thuat_audi.pdf