Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa
khung tái cấu trúc trước đó và khung hiện tại.
- Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng
các ước lượng chuyển động và khung tái cấu trúc trước đó.
- Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán
Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá về mặt
thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động
được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của
tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả
năng nén tìn hiệu mà các bộ mã hoá video có thể đạt được. Thuật toán này người ta
thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian
ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động
trong ảnh gần. Nếu nền không thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai
khung có thể được mã hoá thành một.
37 trang |
Chia sẻ: nguyenlam99 | Lượt xem: 1133 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Nhập môn đa phương tiện - Chương 4: Dữ liệu ảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
(một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh
trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser,
in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v.
Bộ xử lý ảnh chuyên dụng:
Xử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh
chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi
đường bao, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tìch hợp bộ nhớ đệm
có tốc độ cao.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
74
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng
như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tìn hiệu video)
thành hính ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình
CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn
hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng
phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp.
Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều
khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.
4.5 Hệ màu
4.5.1. Màu sắc
Màu sắc được sử dụng trong các ứng dụng đồ họa máy tính để giúp người dùng
hiểu rõ về đối tượng hính học. Các màn hính đồ họa sử dụng các Màu sắc chromatic.
Chúng dựa trê n lý thuy ết v ề bộ não người là Màu sắc ánh sáng được tiếp nhận như
sự phối hợp từ 3 Màu là đỏ (red), xanh lá cây (green), và anh dương (blue). Nói
chung, Màu được mô tả bằng 3 thuộc tình là Màu sắc (hue), độ bão hòa (saturation),
và độ sáng (brightness), chúng xác định vị trì trong quang phổ Màu, độ tinh khiết
và cường độ sáng. Có hàng loạt phương pháp được tạo các mô hính Màu trong các ứng
dụng đồ họa. Trong phần này chỉ đưa ra những mô hính Màu tiêu biểu hơn cả, giúp tím
hiểu các ứng dụng đã lựa chọn Màu sắc thìch h ợp như thế nào.
4.5.2. Mô hình màu RGB
Mô hính màu RGB mô tả màu sắc bằng 3 thành phần chình là Red - Green và
Blue. Mô hình này được xem như một khối lập phương 3 chiều với màu red là trục x,
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
75
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
màu Green là truc y, và màu Blue là trục z. Mỗi màu trong mô hình này được xác định
bởi 3 thành phần R, G, B. Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu
mới .
Trong hính lập phương trên, mỗi màu gốc (R,G,B) có các gốc đối diện là các màu
bù với nó. Hai màu được gọi là bù nhau khi kết hợp hai màu này lại với nhau ra Màu
trắng. Vì dụ : Green -Magenta, Red - Cyan, Blue - Yellow.
Hệ màu RGB (Red - Green - Blue) ra đời đầu tiên dựa trên sự pha trộn từ 3 nguồn
ánh sáng cơ bản là Red (đỏ cờ), Green (màu lục, xanh lá), và Blue (màu lam, xanh dương)
để tạo nên tất cả các màu còn lại, ngoại trừ màu đen.
Màu đen: màu đen là "không màu", lúc cả 3 nguồn sáng đều tắt (lúc màn hính tối
thui)
Màu trắng xuất hiện khi cả 3 nguồn sáng trên chiếu sáng ở cường độ tối đa
Từ đây có thể dễ dàng suy ra các màu xám là do pha trộn 3 nguồn có cường độ
chiếu sáng bằng nhau.
Các màu khác là do sự hòa trộn 3 màu trên với tỉ lệ khác nhau theo qui tắc màu
cộng (additive primaries) - cộng thêm màu từ màu đen ban đầu, là màu lúc màn hính "cúp
điện", tối thui.. với thang màu từ 0 đến 255. Hính bên thí sự giao thoa 3 màu RGB tạo ra 3
màu thứ cấp, màu bậc 2 (pha trộn lần thứ nhất) là vàng (yellow), xanh da trời (cyan) và
hồng cánh sen (Magagenta)
RGB là hệ màu phổ biến cho các máy hiển thị hính bằng đèn phóng như màn hính
vi tình, tivi màu, máy chiếu phim...
4.5.3. Mô hình màu CMYK
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
76
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Tương tự như mô hính màu RGB nhưng 3 thành phần chình là Cyan - Magenta -
Yellow. Do đó, tọa độ các màu trong mô hình CMY trái ngược với mô hính RGB. Vì dụ :
màu White có các thành phần là (0,0,0), màu Black (1,1,1), màu Cyan (1,0,0),...
Trong in ấn thí "không màu" lại là màu trắng, đó là màu trang giấy hay mảnh vải
lúc chưa in.... rắc rối phát sinh ví không thể sử dụng hệ màu RGB cho trường hợp này
được. Vậy là một hệ màu mới được tạo riêng cho in ấn theo quy tắc màu trừ (subtractive
primaries) - trừ bớt màu từ màu trắng ban đầu. 3 màu chình của hệ màu này là xanh cô-
ban (Cyan, turquoise: màu xanh lơ), hồng cách sen (Magenta) và màu Vàng (Yellow) . Ba
màu này, theo lý thuyết, khi trộn vào nhau ở cường độ cao nhất, sẽ tạo ra màu đen (ngược
lại với trường hợp RGB),
Thực chất 3 màu này là 3 màu đối nghịch với 3 màu cơ bản RGB, được pha trộn
theo qui tắc màu trừ, sự thêm vào các màu này giống như là quá trính trừ bớt màu RGB từ
màu trắng ban đầu (là màu lúc tờ giấy chưa in, còn mới, trắng tinh) thang màu từ 0 đến
100%.
4.5.4. Mô hình màu HSV
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
77
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Thực chất của mô hính này là sự biến đổi của mô hính RGB. Mô hình HSV được
mô tả bằng lệnh lập phương RGB quay trên đỉnh Black. H (Hue) là góc quay trục V
(value) qua 2 đỉnh Black và White. Các giá trị biến thiën của H, S, V như sau: (Hue)
chỉ sắc thái có giá trị từ 00 - 3600 . S (Saturation) chỉ độ bão hoâ. V (Value) có giá trị
từ 0 - 1. Các Màu đạt giá trị bão hòa khi s = 1 và v = 1.
4.6 Thu nhận và các thiết bị thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này có thể
cho ảnh đen trắng .Các thiết bị thu nhận ảnh có 2 loại chình ứng với 2 loại ảnh thông dụng
Raster, Vector.
Các thiết bị thu nhận ảnh thông thường Raster là camera các thiết bị thu nhận ảnh
thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh
Raster.
Nhín chung các hệ thống thu nhận ảnh thực hiện 1 quá trính:
- Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
- Tổng hợp năng lượng điện thành ảnh
4.7 Biểu diễn ảnh
Ảnh trên máy tình là kết quả thu nhận theo các phương pháp số hoá được nhúng
trong các thiết bị kỹthuật khác nhau. Quá trính lưu trữ ảnh nhằm 2 mục đìch:
- Tiết kiệm bộnhớ
- Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và
xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kìch thước nếu sử dụng càng
nhiều điểm ảnh thí bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh
người ta gọi đặc điểm này là độphân giải.
Việc lựa chọn độ phân giải thìch hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng
của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo 2 mô hính cơ bản
4.7.1. Mô hình Raster
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
78
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng
ma trận các điểm (điểm ảnh). Thường thu nhận qua các thiết bị như camera, scanner. Tuỳ
theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bìt.
Mô hính Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần cứng
cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao
cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong môi trường Windows là
Microsoft đưa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm trung gian. Hình
dưới thể hính quy trính chung để hiển thị ảnh Raster thông qua DIB.
Một trong những hướng nghiên cứu cơ bản trên mô hính biểu diễn này là kỹ thuật
nén ảnh các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo toàn và không
bảo toàn thông tin nén bảo toàn có khảnăng phục hồi hoàn toàn dữ liệu ban đầu còn nếu
không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào đó. Theo cách tiếp cận
này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó
các kỹthuật nén có khả năng phục hồi dữ liệu 100% và nén có khảnăng phục hồi với độ
sai số nhận được.
Quá trính hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB
4.7.2. Mô hình Vector
Biểu diễn ảnh ngoài mục đìch tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và
in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tím kiếm Theo những
yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn.
Trong mô hính vector người ta sử dụng hướng giữa các vector của điểm ảnh lân
cận để mã hoá và tái tạo hính ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết
bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trính số
hoá.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
79
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất
lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster.
Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh
Raster.
Sự chuyển đổi giữa các mô hính biểu diễn ảnh
4.8 Nén ảnh
Nhằm giảm thiểu không gian lưu trữ. Thường được tiến hành theo cả hai cách
khuynh hướng là nén có bảo toàn và không bảo toàn thông tin. Nén không bảo toàn thí
thường có khả năng nén cao hơn nhưng khả năng phục hồi thí kém hơn. Trên cơ sở hai
khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:
Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của
giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thìch hợp. Một vì dụ
điển hính cho kỹthuật mã hóa này là *.TIF
Nén ảnh không gian: Kỹ thuật này dựa vào vị trì không gian của các điểm ảnh để
tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng
gần nhau. Vì dụ cho kỹthuật này là mã nén *.PCX
Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo
toàn và do vậy kỹ thuật thường hiệu quả hơn. *.JPG chình là tiếp cận theo kỹ thuật
nén này.
Nén ảnh Fractal: Sử dụng tình chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại
của các chi tiết. Kỹ thuật nén sẽ tình toán để chỉ cần lưu trữ phần gốc ảnh và quy
luật sinh ra ảnh theo nguyên lý Fractal.
4.8.1. Nén JPEG
4.8.1.1. Tổng quan
Các phương pháp nén JPEG thường tổn hao, có nghĩa là một số thông tin hính ảnh
ban đầu là bị mất và không thể phục hồi, có thể ảnh hưởng đến chất lượng hính ảnh.
4.8.1.2. Mã hóa JPEG
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
80
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Mặc dù một tập tin JPEG có thể được mã hóa trong nhiều cách khác nhau, phổ
biến nhất được thực hiện với mã hóa JFIF. Quá trính mã hóa bao gồm các bước:
Các đại diện của các màu sắc trong hính ảnh được
chuyển đổi từ RGB sang YCbCr, bao gồm một thành phần luma (Y), đại diện cho độ
sáng, và hai thành phần sắc độ (Cb và Cr), đại diện cho màu.
Giảm độ phân giải của dữ liệu, thường là một hệ số 2.
Điều này phản ánh thực tế là mắt ìt nhạy cảm với các chi tiết màu sắc tốt hơn các
chi tiết độ sáng tốt.
Hính ảnh được chia thành các khối điểm ảnh 8 × 8, và
với mỗi khối, mỗi dữ liệu Y, Cb, và Cr trải qua một biến đổi cosin rời rạc (DCT).
Biên độ của các thành phần tần số được lượng tử hóa.
Các dữ liệu kết quả cho tất cả các khối 8 × 8 nén với
một thuật toán không mất dữ liệu, một biến thể của mã hóa Huffman.
Quá trính giải mã đảo ngược các bước này, ngoại trừ lượng tử bởi ví nó là không thể đảo
ngược.
Mã hóa
Nhiều tùy chọn trong tiêu chuẩn JPEG không được sử dụng phổ biến, trong khi những
thứ khác quy định cụ thể các phương pháp mã hóa. Đây là một mô tả ngắn gọn của một
trong các phương pháp mã hóa phổ biến khi áp dụng cho một đầu vào có 24 bit cho mỗi
pixel.
Không gian biến đối màu
Thứ nhất, hính ảnh được chuyển đổi từ RGB thành một không gian màu khác nhau
gọi là YCbCr. Nó có ba thành phần Y, Cb và Cr: Y: thành phần đại diện cho độ sáng của
điểm ảnh, và các thành phần Cb và Cr đại diện cho màu (chia thành các thành phần màu
xanh và đỏ).
Lấy mẫu sắc độ
Do đặc điểm về nhạy cảm trong mắt người đối với m ật độ của màu sắc và độ sáng,
con người có thể cảm nhận tốt hơn đáng kể đối với độ sáng của một hính ảnh (thành
phần Y) so với màu sắc và độ bão hòa màu sắc của một hính ảnh (các thành phần CbCr).
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
81
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Phân tách khối
Sau khi lấy mẫu, mỗi kênh được chia thành các khối 8 × 8.
Biến đổi Cosin rời rạc
Tiếp theo, mỗi khối 8 × 8 của mỗi thành phần (Y, Cb, Cr) chuyển đổi sang một miền
tần số đại diện, thông thường là biến đổi cosin rời rạc (DCT) hai chiều.
Lượng tử hóa
Mắt người có thể nhín thấy sự khác biệt về độ sáng trên một trên một tần số thấp,
nhưng không phân biệt chình xác m ức độ của sự thay đổi độ sáng ở tần số cao. Điều
này cho phép giảm đáng kể số lượng thông tin trong các thành phần tần số cao. Điều
này được thực hiện đơn giản là bằng cách chia mỗi thành phần trong các mức tần số với
một hằng số, và sau đó làm tròn đến số nguyên gần nhất.
Mã hóa Entropy
Mã hóa entropy là một hính thức đặc biệt của nén không mất dữ liệu. Nó liên quan
đến việc sắp xếp các thành phần hính ảnh trong một trật tự "ngoằn ngoèo" sử dụng thuật
toán mã hóa duyệt chiều dài (RLE) tình toán tần số các nhóm tương tự nhau, chèn mã
đánh sốchiều dài, và sau đó sử dụng mã hóa Huffman vào những gí còn lại.
Quá trính mã hóa và giải mã JPEG tuần tự
Tỷ số nén JPEG
Tỉ số nén có thể được thay đổi theo nhu cầu chất lượng trong các ước lượng được
sử dụng trong giai đoạn lượng tử hóa. Tỉ số nén 10 :1 thường cho kết quả hính ảnh
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
82
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
mà không thể được phân biệt bằng mắt thường so với bản gốc. Tỉ số nén 100 : 1 thường
có thể phân biệt rõ ràng so với bản gốc. Mức độ thìch hợp của tỉ số nén phụ thuộc vào
việc sử dụng hính ảnh.
4.8.1.3. Giải mã JPEG
a. Các bước giải mã
Giải mã để hiển thị hính ảnh bao gồm tất cả các mã hóa theo chiều ngược lại.
b. Yêu cầu về độ chính xác
Quá trính mã hóa trong chuẩn JPEG không giúp khắc phục được độ chình xác cần
thiết cho việc nén hính ảnh đầu ra. Tuy nhiên, chuẩn JPEG lại bao gồm một số yêu cầu
nhằm tăng tình chình xác cho việc giải mã, đầu ra từ các thuật toán không được vượt quá:
- Tối đa là 1 bit khác biệt cho mỗi Pixel
- Chất lượng thấp có nghĩa lỗi một ô vuông trên mỗi khối 8 × 8 Pixel
- Chất lượng rất thấp có nghĩa là lỗi trên mỗi khối 8 x 8 Pixel
- Chất lượng rất thấp có nghĩa là lỗi ô vuông trên toàn bộ hính ảnh
- Chất lượng quá thấp có nghĩa là lỗi trên toàn bộ hính ảnh
4.8.1.4. Hiệu ứng hình ảnh thu đƣợc khi nén JPEG
Tỷ lệ nén cao ảnh hưởng nghiêm trọng đến chất lượng của hính ảnh, mặc dù màu
sắc và hính thức tổng thể hính ảnh vẫn còn nhận ra.
4.8.2. Nén Fractal
4.8.2.1 Tổng quan
Lý thuyết hính học Fractal là một ngành toán học hiện đại còn rất non trẻ. Bài toán
trung tâm của lý thuyết là mô tả các đối tượng tự nhiên một cách hiệu quả dựa vào các
công cụ toán học. Lý thuyết này do B.Mandelbrot đưa ra thông qua tác phẩm “Hính học
Fractal trong tự nhiên”.
4.8.2.2 Thuật toán nén – giải nén
a. Thuật toán nén ảnh Fractal
Quá trính bắt đầu bằng việc phân hoạch ảnh cần nén thành các khối không lấp lên
nhau gọi là các khối range, sau đó xác định một tập các khối domain.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
83
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Với mỗi khối range cần phải chọn được khối domain thìch hợp sao cho khi áp
dụng một phép ánh xạ affirne co 3 chiều (về vị trì và độ xám), ảnh thu được có thể đối
sánh tốt với khối range đang xét.
b. Thuật toán giải nén Fractal
Xuất phát từ dữ liệu nén chứa trong file ảnh Fractal, chúng ta xây dựng lại hệ hàm
lặp tương ứng với ảnh khởi động bất kỳ và sau đó áp dụng liên tiếp hàm lặp này vào các
ảnh thu được sau mỗi lần lặp cho đến khi thu được ảnh xấp xỉ tốt nhất với ảnh ban đầu.
c. Các cách phân hoạch ảnh
- Phân hoạch quadtree
- Phân hoạch HV
- Phân hoạch tam giác
d. Phân loại
Bước so sánh domain-range của nén ảnh Fractal có cường độ tình toán rất lớn. Để
có thể giảm thời gian nén ảnh, chúng ta tạo sẵn các domain và đưa chúng vào một thư
viện domain gọi là domain pool.
Trước khi mã hóa, tất cả các domain trong thư viện domain được phân loại. Điều
này tránh sự phân loại lại của các domain.
e. Kết luận
Dựa vào lý thuyết và các kiểm nhiệm thực tế, phương pháp nén ảnh này cho thấy:
- Tỉ số nén cao: Điểm nổi bật nhất mà thuật toán nén và giải nén bằng kỹ thuật
Fractal cung cấp được là tỉ số nén cực cao với chất lượng ảnh nén không thay đổi.
- Tốc độ giải nén ảnh nhanh: Thuật toán được trính bày là một thuật toán không đối
xứng ví các tình toán trong việc nén ảnh đòi hỏi một lượng thời gian lớn hơn rất
nhiều lần so với thời gian giải nén.
- Tình độc lập về độ phân giải giữa ảnh nén và ảnh gốc: Thuật toán nén ảnh và giải
nén bằng kỹ thuật Fractal về thực chất đã cung cấp một bộ tạo sinh để vẽ lại
ảnh gốc dựa trên một số cực nhỏ thông tin cần thiết ban đầu.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
84
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Chƣơng 5: Dữ liệu âm thanh
5.1. Một số khái niệm cơ bản
- Âm thanh (audio): là dao động các sóng âm gây ra áp lực làm dịch chuyển các hạt
vật chất trong môi trường đàn hồi làm tai người cảm nhận được các dao động này.
Tai người có thể nghe được các dao động trong khoảng tần số 20Hz đến 20kHz.
- Âm thanh tự nhiên: là sự kết hợp giữa các sóng âm mang tần số khác nhau.
- Dải động của tai: giới hạn bởi ngưỡng nghe thấy (0dB) đến ngưỡng đau (120dB) của
người.
- Ngưỡng nghe tối thiểu: mức thấp nhất của biên độ mà tai người có thể cảm nhận
được âm thanh tùy thuộc vào từng người, mức áp lực và tần số của âm thanh.
- Hiệu ứng che khuất âm thanh: hiện tượng âm thanh mà tại đó ngưỡng nghe của một
âm tăng lên trong khi có mặt của một âm khác (khó nghe hơn). Được sử dụng trong
kỹ thuật nén.
- Hướng âm thanh: tai và não có thể giúp ta xác định hướng âm thanh, điều này có thể
ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround.
- Vang và trễ: vang là hiện tượng kéo dài âm thanh sau khi nguồn âm đã tắt. Trễ là
thời gian d âm thanh phản xạ đến đìch so với âm thanh trực tiếp. Nếu d > 50ms thí
trễ đó gọi là tiếng vọng. Biên độ của âm thanh cứ sau một lần phản xạ thí bị suy
giảm.
5.2. Ứng dụng của âm thanh
Âm thanh đóng vai trò quan trọng trong các ứng dụng truyền thông đa phương
tiện. Các hiệu ứng đặc biệt của âm thanh như âm nhạc và tiếng nói có thể được đưa vào
các ứng dụng, đặc biệt là các ứng dụng trong hệ thống đào tạo và bán hàng tự động hoặc
hệ thống điểm thông tin. Một lời chú thìch bằng tiếng nói có thể được dùng để diễn tả
những gí đang diễn ra trên màn hính hoặc để làm nổi bật và nhấn mạnh những khái niệm
then chốt. Âm thanh có thể được sử dụng kết hợp với hính ảnh tĩnh hoặc động để giải
thìch cho người sử dụng một ý tưởng hay một quy trính hiệu quả hơn theo cách giải thìch
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
85
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
chỉ đơn giản bằng văn bản hay đồ họa, âm nhạc có thể được sử dụng để thu hút sự chú ý
của khách hàng hoặc để tạo ra một phong cách riêng biệt.
Trong một số lĩnh vực chuyên dụng tự âm thanh có thể hính thành lên sự lôi cuốn
của một số ứng dụng truyền thông đa phương tiện, chẳng hạn như các hệ thống chỉ đường
của người khiếm thị, ...
Công nghệ xử lý âm thanh ngày càng được cải tiến, mối quan tâm của người dùng
đến các hệ thống xử lý và nhận dạng tiếng nói trong các ứng dụng kinh doanh, an ninh, ...
ngày càng tăng lên.
5.3. Kỹ thuật Audio số
Để máy tình làm việc được với âm thanh, chúng phải được chuyển thành tìn hiệu số
(digital) từ tìn hiệu tương tự. Quá trính này gọi là “lấy mẫu” (sampling), mỗi một phần
của một thời gian lấy mẫu, tìn hiệu tương tự được ghi nhận lại thành những bit.
Có 2 yếu tố ảnh hưởng đến chất lượng âm thanh:
1. Tần số lấy mẫu:
- Tần số lấy mẫu là số lần mẫu được lấy trong một đơn vị thời gian.
- Tần số chung nhất là: 11.025 kHz, 22.05 kHz, và 44.1 kHz.
- Nếu tần số lấy mẫu cao hơn thí chất lương sẽ tốt hơn.
2. Số bit mã hoá (kích thước lấy mẫu):
Quyết định tổng lượng thông tin có thể biểu diễn (mã hoá).
Minh họa:
Tìn hiệu analog và digital.
- Kìch thước lấy mẫu thông thường là 8 bit và 16 bit.
- Kìch thước lấy mẫu 8-bit cho 256 giá trị dùng để thể hiện âm thanh, nếu 16-
bit thí cho 65. 536 giá trị.
- Nếu kìch thước lấy mẫu cao hơn thí chất lượng sẽ tốt hơn.
Kìch thước file của 10 giây ứng với giá trị tần số và số bit:
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
86
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Tần số Số Bit Kìch thước File
44.1 kHz 16 1.76 MB
44.1 kHz 8 882 KB
22.05 kHz 16 882 KB
22.05 kHz 8 440 KB
11.025 kHz 8 220 KB
Sóng âm và cảm giác âm
5.4 Giới thiệu về âm thanh và hệ thống xử lý âm thanh
5.4.1. Âm thanh(Sound)
Âm thanh về mặt cảm giác đó là sự cảm nhận của con người thông qua thình giác và
bộ não. Âm thanh về mặt khoa học đó là sự vận động vật lý trong môi trường trung gian
của các nguyên tử theo dạng sóng, các sóng này có tần số thay đổi theo thời gian. Người
ta có thể mô tả chuyển động của sóng âm thanh bằng một đại lượng liên tục theo thời
gian, nói cách khác có thể mô tả âm thanh bằng đại lượng analog theo cách sau:
Sóng âm thanh lan truyền trong không khì tác động lên vật chắn có nối với nguồn
điện, sóng âm thanh tạo nên áp suất thay đổi lên vật chắn làm cho điện thế V của nguồn
điện thay đổi liên tục - điện thế chình là biểu diễn sự thay đổi liên tục của sóng âm thanh,
người ta nói rằng đại lượng biểu diễn sự thay đổi của sóng âm thanh theo thời gian là đại
lượng analog (tương tự).
Nguồn tín hiệu
(Analog)
Chuyển đổi
Analog-Digital
Xử lý, Lưu trữ, Truyền dẫn
(Digital)
Chuyển đổi
Analog-Digital
Xuất âm hiển thị
Analog
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
87
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Chu kỳ và tần số
Như chúng ta đã biết, đối với sóng âm có một số thuộc tình quan trọng sau: Chu kỳ
(period), tần số (frequence), tốc độ (speed), biên độ (amplitude),
- Chu kỳ là khoảng thời gian xuất hiện liên tiếp của đỉnh sóng tại một điểm; kí hiệu
T
- Tần số là là số chu kỳ diễn ra trong một đơn vị thời gian tình theo giây. Đơn vị của
tần số tính bằng Hertz (Hz). Kí hiệu là f. Giữa chu kỳ và tần số có mối liên hệ sau:
T=1/f. Tai người nhạy cảm với một dải rộng các tần số , bính thường từ 22Hz đến
22000 Hz điều này phụ thuộc vào sức khỏe người nghe. Dải tần từ 22Hz đến
22000 Hz gọi là dải nghe được. Tiếng nói con người thường nằm trong giải tần
500Hz đến 22000 Hz.
Tốc độ âm thanh phụ thuộc vào môi trường nó lan truyền vì dụ nhiệt độ không khì, ở
nhiệt độ 20c sóng âm thanh lan truyền với tốc độ 343,8 met/s.
- Độ rộng tần số (Banwithd ) : sự khác nhau giữa tần số cực đại và cực tiểu
- Biên độ (amplitude): là giá trị lớn nhất của hàm trong mọi chu kỳ; Biên độ của sóng
âm thanh là tính chất quan trọng, nhờ nó người ta cảm nhận được độ to nhỏ
(loudness) của âm thanh.
- Độ ồn của âm thanh: Độ ồn của âm thanh con người có thể cảm nhận được bằng tai
Đơn vị đo tiếng ồn là decibel (db). Nó được xác định bởi
Ở đây
- P1,P2 là năng lượng được đo bằng watt, jul, gram.cm/s.. hay đại lượng vật lý
nào đó mà đơn vị đo của nó là năng lượng trên thời gian (power per time)
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
88
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
- Level – là mức độ ồn
5.4.2. Đặc tính của âm thanh tƣơng tự
Mục đìch của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc
điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại
diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời
nói là tìn hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.
Hình dạng sóng của tìn hiệu ghi nhận được từ âm thanh của người
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như
trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khì khác
nhau. Điện áp đến từ một microphone là tìn hiệu tương tự của áp suất không khì (hoặc đôi
khi là vận tốc). Dù được phân tìch bằng cách thức nào, thí các phương pháp khi so sánh
với nhau phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những
thiết bị cổ điển, các tiêu chuẩn xử lý thí hầu như không có gí thay đổi, mặc dù công nghệ
có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt
bằng thông số liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tình năng tương tự như hệ thống xử
lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng
sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm
tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế.
Tìn hiệu số sẽ truyền trong khoảng cách ngắn hơn tìn hiệu tương tự và với chi phì thấp
hơn.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tình rời rạc, và nó có thể
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
89
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký
hiệu (symbol).
Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme). Mỗi
ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến
50. Vì dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tìn hiệu thoại được truyền với tốc độ như thế nào? Đối với tìn hiệu âm thoại nguyên
thủy chưa qua hiệu chỉnh thí tốc độ truyền ước lượng có thể tình được bằng cách lưu ý
giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm
vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã
gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung
bính 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có
thể ước lượng được tốc độ truyền trung bính của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tìn hiệu thoại được truyền lưu trữ và xử lý theo
nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thí có hai
điều cần quan tâm chung là:
1. Việc duy trí nội dung của thông điệp trong tìn hiệu thoại
2. Việc biểu diễn tìn hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin
hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tìn hiệu thoại sao cho không làm
giảm nghiêm trọng nội dung của thông điệp thoại.
Việc biểu diễn tìn hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được
dễ dàng trìch ra bởi người nghe, hoặc bởi các thiết bị phân tìch một cách tự động.
5.4.3. Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều
biến độc lập khác, vì dụ như:
- Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
- Hình ảnh: cường độ sáng theo không gian (x, y, z)
- Địa chấn: chấn động địa lý theo thời gian
- Biểu diễn toán học của tín hiệu: hàm theo biến độc lập
Vì dụ:
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
90
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
- u(t) = 2t2 − 5
- f (x, y) = x2 − 2xy − 6y2
Chú ý: Thông thường các tìn hiệu tự nhiên không biểu diễn được bởi một hàm sơ
cấp, cho nên trong tình toán, người ta thường dùng hàm xấp xỉ cho các tìn hiệu tự nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trính thực hiện các phép
toán trên tìn hiệu nhằm biến đổi tìn hiệu, rút trìch thông tin, Việc thực hiện phép toán
còn được gọi là xử lý tìn hiệu.
5.4.4. Phân loại tín hiệu
Tìn hiệu đa kênh: gồm nhiều tìn hiệu thành phần, cùng chung mô tả một đối tượng
nào đó (thường được biểu diễn dưới dạng vector, vì dụ như tìn hiệu điện tim (ECG-
ElectroCardioGram), tìn hiệu điện não (EEG – ElectroEncephaloGram), tìn hiệu ảnh màu
RGB.
Tìn hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, vì dụ như tìn hiệu
hình ảnh, tìn hiệu tivi trắng đen.
Tìn hiệu liên tục theo thời gian: là tìn hiệu được định nghĩa tại mọi điểm trong đoạn
thời gian [a,b], ký hiệu x(t) .
Hính 1.2 Tìn hiệu liên tục theo thời gian
Tìn hiệu rời rạc thời gian: là tìn hiệu chỉ được định nghĩa tại những thời điểm rời rạc
khác nhau, ký hiệu x(n) .
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
91
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Hính 1.3 Tìn hiệu rời rạc theo thời gian
Tìn hiệu liên tục giá trị: là tìn hiệu có thể nhận trị bất kỳ trong đoạn [ , ] min max Y
Y , vì dụ tìn hiệu tương tự (analog).
Hình 1.4 Tìn hiệu liên tục giá trị
Tìn hiệu rời rạc giá trị: tìn hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tìn
hiệu số).
Hính 1.5 Tìn hiệu rời rạc giá trị
Tìn hiệu analog: là tìn hiệu liên tục về thời gian, liên tục về giá trị.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
92
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Hính 1.6 Tìn hiệu analog
Tìn hiệu số: là tìn hiệu rời rạc về thời gian, rời rạc về giá trị.
Hính 1.7 Tìn hiệu số
Tìn hiệu ngẫu nhiên: giá trị của tìn hiệu trong tương lai không thể biết trước được.
Các tìn hiệu trong tự nhiên thường thuộc nhóm này
Tìn hiệu tất định: giá trị tìn hiệu ở quá khứ, hiện tại và tương lại đều được xác định
rõ, thông thường có công thức xác định rõ ràng.
5.4.5 Phân loại hệ thống xử lý
Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý
số: là hệ thống có thể lập trính được, dễ mô phỏng, cấu hính, sản xuất hàng loạt với độ
chình xác cao, giá thành hạ, tìn hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là
khó thực hiện với các tìn hiệu có tần số cao.
5.5. Nén âm thanh
5.5.1. Các phƣơng pháp nén âm thanh đơn giản
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
93
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Các phương pháp nén khảo sát ở khoảng hiệu quả trong việc nén âm thanh.
Sau đây là các phương pháp nén có tổn thất:
- Nén “silence”: dò các khoảng “yên lặng”, giống như mã hóa run – length.
- LPC (Linear Predictive Coding)
- CELP (Code Excited Linear Predictor)
5.5.2. Nén âm thanh dùng mô hình âm – tâm lý
a. Hệ thống nghe và phát âm của con người
Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz.
Phạm vi phát âm bính thường từ 500 Hz đến 2 kHz.
b. Che tần số (Frequency masking)
“Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần
số và mức to (dB) xác định sẽ có một “ngưỡng che” (xem hính 4.3 vaø 4.4)
c. Băng giới hạn
Thước đo tần số đồng bộ không tương xứng với độ rộng của ngưỡng cong che.
Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng
lên đối với các tần số >500Hz.
Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen)
1 Bark = bề rộng của băng giới hạn:
- Tần số <500Hz : 1 bark = freq/100.
- Tần số >500Hz : 1 bark = 9 + 4log(freq/1000).
Ngöôõng che treân thöôùc ño baêng giôùi haïn:
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
94
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
d. Che nhaát thôøi (Temporal masking): che theo thôøi gian.
Tai ngöôøi cuõng coù ñaëc tính löu aâm.
Neáu coù moät aâm thanh lôùn, roài ngöng noù laïi, maõi moät luùc sau ta môùi coù theå nghe
ñöôïc moät aâm laân caän nhoû hôn (xem hình 4.5 vaø 4.6).
5.5.3. Neùn aâm thanh MPEG
Vaøi thoâng soá:
MPEG-1 : 1.5Mbits/s cho aâm thanh vaø hình aûnh.
Khoaûng 1.2 Mbits cho hình aûnh vaø 0.3Mbits/s cho aâm thanh.
Aâm thanh CD khoâng neùn duøng: (44,100 maãu/s * 16bit/maãu * 2 keânh) > 1.4 Mbits/s
Aâm thanh MPEG cung caáp caùc taàn soá laáy maãu laø 32, 44.1 vaø 48 kHz.
Giaûi thuaät:
1. Dùng bộ lọc thông để chia tìn hiệu âm thanh thành các sub-band theo tần số, tương
ứng với 32 băng giới hạn lọc sub-band.
2. Xác định số lượng che của mỗi band gây bởi các band lân cận bằng các kết quả
bước 1 mô hình âm – tâm lý.
3. Nếu mức to của một băng mà nhỏ hơn ngưỡng che thí không mã hóa nó.
4. Ngược lại, xác định số bit cần thiết để mã hóa sao cho nhiễu sinh ra bởi việc lượng
tử hóa này thấp hơn đường cong che.
5. Ñònh daïng doøng döõ lieäu bit :
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
95
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Ví duï:
Sau khi phaân tích, 16 band ñaàu tieân trong soá 32 band nhö sau:
_________________________________________________________
Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level(dB) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
_________________________________________________________
Neáu möùc to cuûa aâm thöù 8 laø 60dB, noù seõ che band thöù 7 ôû möùc 12dB vaø band
thöù 9 ôû möùc 15dB.
Möùc to ôû band 7 laø 10dB (<12dB) neân bò boû qua, khoâng maõ hoùa.
Möùc to band 9 laø 35 (> 15dB) neân ñöôïc tieáp tuïc xöû lyù.
Layer I: boä loïc loaïi DCT vôùi 1 frame vaø ñoä roäng taàn soá nhö nhau treân moãi sub-
band. Moâ hình aâm-taâm lyù chæ söû duïng hieäu quaû che taàn soá (Frequency masking).
Layer II: söû duïng 3 frame trong boä loïc (tröôùc, hieän taïi vaø keá tieáp, toång coäng
1152 maãu). Moâ hình aâm-taâm lyù coù söû duïng hieäu quaû che nhaát thôøi (Temporal
masking).
Layer III: duøng boä loïc baêng giôùi haïn toát hôn, moâ hình aâm-taâm lyù coù söû duïng
hieäu quaû che nhaát thôøi, vaø coù duøng boä maõ hoaù Huffman.
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
96
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Chƣơng 6: Dữ liệu video
6.1. Một số khái niệm cơ bản
Trính tự video số bao gồm các frame hay ảnh sẽ trính chiếu theo tốc độ cố định. Tốc
độ chuyển động của frame video được xác định bởi các yếu tố:
- Tốc độ frame đủ cao để chuyển động trơn tru (trên 25 frame/sec).
- Tốc độ frame càng cao đòi hỏi băng thông càng lớn để truyền tìn hiệu video.
- Ảnh trên màn hính mất đi nếu không được làm tươi sau chu kỳ ngắn. Nếu
khoảng cách làm tươi quá lớn sẽ làm màn hính nhấp nháy (cần trên 50 lần/sec).
Với tần số này sẽ làm băng thông tăng đáng kể, do vậy, kỹ thuật hiển thị
interlace được sử dụng. TV sử dụng 2 lần quét dọc (gọi là field) /frame.
Trên cơ sở các yếu tố trên, hai tốc độ frame được sử dụng cho TV là: 25 frame (50
field)/sec cho chuẩn PAL (châu Âu, China, Australia) và 30 frame/s cho chuẩn
NTSC (Bắc Mỹ và Japan). Chọn 50 và 60 field để phù hợp với tần số điện nguồn
của các nước tương ứng.
Hai đặc trưng chình của video là có chiều thời gian và có lượng dữ liệu khổng lồ.
Thì dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc độ frame là 30
frame/s đòi hỏi 13.8 GB bộ nhớ. Do vậy, việc nén video là nhu cầu cần thiết.
6.2. Nén video
Để truyền được các chương trính video trên các hệ thống thông tin di động, một
bài toán đặt ra là phải nén hính ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất
lượng hính ảnh. Đây là một yêu cầu đã và đang được nhiều nhà nghiên cứu quan tâm.
Truyền dẫn số tìn hiệu ảnh động qua các hệ thống vệ tinh đã được nghiên cứu từ năm
1990, trong đó nén video bằng phương pháp mã hoá đóng vai trò rất quan trọng. Cho đến
nay, khi các hệ thống thông tin di động 3G và hệ thống NGN ra đời cho phép truyền các
chương trính video trên đó thí việc nghiên cứu tím ra các giải pháp nén mới càng đòi hỏi
cấp thiết hơn bao giờ hết. Nhóm chuyên gia về hính ảnh động (MPEG) đã hoàn thiện hai
bộ tiêu chuẩn về mã hoá video là MPEG -1 và MPEG -2, xác định các phương pháp
truyền thông tin video số theo các định dạng truyền hính và đa môi trường. Ngày nay
MPEG -4 đang nhắm vào việc truyền video tốc độ bit rất thấp; còn MPEG -7 đưa ra
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
97
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
chuẩn hoá trong các dịch vụ lưu trữ và phục hồi video. Trong hoàn cảnh mạng thế hệ mới
NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải
tìn hiệu video số với mục đìch làm cho chất lượng hính ảnh tốt hơn, băng tần truyền dẫn
thấp hơn.
Nén video số là một quá trính trong đó người ta tím các giải pháp để giảm số lượng
số liệu biểu thị hính ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lượng
video được khôi phục ở phìa thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tình
toán. Nén video có nhiệm vụ rất quan trọng ví lượng dư của số liệu trong các hính ảnh
nguyên thủy thường lớn hơn nhiều dung lượng mà các thiết bị điện tử ngày nay có thể xử
lý.
Ta cũng biết rằng thông tin và số liệu là hai khái niệm khác nhau nhưng liên quan
chặt chẽ với nhau. Số liệu biểu thị thông tin và chất lượng số liệu có thể đo được. Nội
dung của số liệu video thường được đo bằng số đơn vị bit; còn thông tin được xác định
bằng sự nhận biết. Như vậy toàn bộ số liệu biểu thị sự nhận biết, tuy vậy nó cũng có đơn
vị đo của nó.
Nén video trong truyền video
Tốc độ bit hay còn gọi là tốc độ mã hóa là một tham số quan trọng trong nén video
và thường được biểu thị bằng đơn vị bit/giây. Trong mã hóa nguồn tin, đôi lúc tốc độ bit
được biểu thị bit trên ký hiệu. Chất lượng hính ảnh được cấu trúc lại ở phìa thu phụ thuộc
vào ứng dụng ví vậy sẽ có loại nén tổn thất và nén không tổn thất. Trong ứng dụng truyền
các ảnh động, các chương trính truyền hính thí cho phép một lượng tổn thất nào đó.
6.3.1. Độ dƣ thừa trong tín hiệu video
a. Độ dƣ thống kê của ảnh
Độ dư thống kê có thể được phân thành hai kiểu: độ dư giữa các pixel và độ dư mã
hóa. Độ dư giữa các pixel có nghĩa là các pixel của một khung ảnh và các pixel của một
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
98
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
nhóm các khung ảnh hoặc video liên tiếp không độc lập thống kê với nhau. Trái lại, chúng
tương quan với nhau theo mức độ khác nhau. Kiểu tương quan giữa các pixel như vậy
được coi là độ dư giữa các pixel. Độ dư giữa các pixel có thể được chia thành hai loại: độ
dư không gian và độ dư thời gian. Độ dư mã hoá là độ dư thống kê liên quan đến các kỹ
thuật mã hóa
Độ dƣ không gian
Độ dư không gian thể hiện mối tương quan thống kê giữa các pixel trong một khung
ảnh. Do đó nó còn được gọi là độ dư ngoài khung. Ta biết rằng các giá trị cường độ của
các pixel thuộc một hàng (hoặc một cột) có hệ số tự tương quan rất cao (gần bằng độ tự
tương quan cực đại là 1) với các giá trị cường độ của các pixel thuộc chình hàng đó (hoặc
chình cột đó) nhưng bị dịch đi một pixel. Điều này không hề bất ngờ bởi ví hầu hết các
giá trị cường độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại
trừ các miền ría.
Độ dƣ thời gian
Độ dư thời gian có liên quan với tương quan thống kê giữa các pixel của các khung
liên tiếp trong một dãy ảnh hoặc video theo thời gian. Ví vậy nó còn được gọi là độ dư
giữa các khung.
Độ dƣ mã
Như đã nói ở trên, độ dư giữa các pixel liên quan đến độ tương quan giữa các pixel.
Điều đó có nghĩa rằng một số thông tin liên quan đến các pixel là thừa. Độ dư về khả
năng nhín có liên quan đến những thông tin dư thừa về mặt nhín thấy được, tức là với nó
hệ thống nhín của con người (HVS) không nhạy. Do vậy, rõ ràng cả hai độ dư là độ dư
giữa các pixel và độ dư khả năng nhín ví một lý do nào đó gắn với một số thông tin chứa
trong hình ảnh và video. Loại bỏ các độ dư này hoặc sử dụng các mối tương quan này
bằng cách sử dụng số bit ìt hơn để biểu diễn thông tin sẽ cho ta kết quả nén dữ liệu hính
ảnh và video. Với nghĩa đó thí độ dư mã là khác, nó không thực hiện việc gí đối với sự dư
thừa thông tin mà nó thực hiện với việc biểu diễn thông tin, nghĩa là chình việc mã hoá.
Từ việc nghiên cứu độ dư mã, rõ ràng là chúng ta nên tím kiếm các kỹ thuật mã hiệu quả
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
99
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
hơn để nén dữ liệu hính ảnh và video. Mã Huffman và mã số học là hai kỹ thuật mã hóa
VLC thường được dùng trong xử lý ảnh và video.
b. Độ dƣ khả năng nhìn thấy
Trong khi độ dư giữa các pixel vốn đã có trong số liệu hính ảnh và video, độ dư khả
năng nhín thấy bắt nguồn từ các đặc trưng về hệ thống nhín của con người.
Ta biết rằng HVS cảm nhận được thế giới bên ngoài theo một cách thức khá phức tạp.
Đáp ứng của nó đối với các tác nhân nhín không phải là một hàm tuyến tình theo cường
độ của một vài thuộc tình vật lý, như độ sáng và màu. Năng lực tri giác của HVS khác
hẳn với độ nhạy của camera. Trong HVS, thông tin nhín thấy không được cảm nhận như
nhau, một số thông tin có thể quan trọng hơn một số thông tin khác. Điều đó có nghĩa
rằng nếu chúng ta sử dụng ìt dữ liệu hơn để biểu diễn những thông tin ìt quan trọng hơn
về nhín thấy thí khả năng cảm nhận sẽ không bị ảnh hưởng. Theo nghĩa đó, chúng ta thấy
rằng một số thông tin có liên quan đến thị giác là dư thừa về khả năng nhín thấy. Loại bỏ
sự dư thừa khả năng nhín thấy này chình là nén dữ liệu.
6.3.2. Nhu cầu cần thiết nén video
Những thành tựu đạt được trong công nghệ điện tử - viễn thông - tin học đã tạo
điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các
ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hính độ phân
giải cao...
Video là một dãy các khung ảnh bao gồm một lượng khổng lồ các số liệu, vì dụ
mỗi khung video có độ phân giải 288 dòng và 352 pixel trên một giây. Mỗi một màu
trong ba màu chình (đỏ, xanh, xanh da trời) được biểu thị bằng 1 pixel có 8 bit và thông
thường tốc độ khung truyền là 30 khung trên một giây để tạo ra video chuyển động liên
tục. Tốc độ bit yêu cầu là: 288×352×8×3×30 = 72.990.720 bit/s.
Do đó tỷ số giữa tốc độ bit cần thiết và tốc độ bit có thể lớn nhất khoảng 1289 lần.
Điều này chứng tỏ rằng chúng ta cần phải nén số liệu video ìt nhất là 1289 lần để truyền
được trên mạng viễn thông.
6.3.3. Khái niệm về nén video
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
100
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
Các phương tiện liên lạc video qua kênh thông tin số thế hệ mới yêu cầu rất lớn về
việc truyền thông tin. Nén video được xem xét ở đây bao hàm việc làm giảm tốc độ bit
mã tìn hiệu video số mang thông tin nhín được hoặc loại bỏ các phần tử dư thừa trong tìn
hiệu. Mức độ mà bộ mã hoá làm giảm tốc độ bit được gọi là hiệu suất mã và nghịch đảo
của hiệu suất mã được gọi là tỷ số nén:
Nén có làm tổn thất hoặc không làm tổn thất thông tin. Tổn thất thông tin thường
được tính bằng sai số trung bính bính phương (MSE), sai số tuyệt đối trung bình (MAE)
hoặc tỷ số tìn hiệu đỉnh trên nhiễu (PSNR):
6.3.4. Một số kỹ thuật nén video
Nói chung các hệ thống nén video bao gồm hai phương thức làm giảm độ dư thông
tin trong các miền không gian và thời gian. Nén không gian và lượng tử hoá hoạt động
trên một khối ảnh duy nhất bằng cách sử dụng các đặc tình ảnh cục bộ để giảm tốc độ bit.
Bộ mã hoá không gian cũng có VLC được đặt sau tầng lượng tử hoá. Tầng VLC tạo ra mã
không tổn thất của khối ảnh đã được lượng tử. Bộ nén miền thời gian sử dụng các phương
thức dòng quang (thường ở dạng phương pháp ước lượng chuyển động phối hợp khối) để
nhận dạng và giảm độ dư thời gian.
Các bộ mã hoá entropy là các bộ mã hoá không tổn thất được sử dụng trong tầng
VLC của hệ thống nén video. Chúng được sử dụng tốt nhất cho các nguồn tin không nhớ
và tối thiểu hoá tốc độ bit bằng cách ấn định các mã với độ dài thay đổi cho các giá trị đầu
vào tuỳ theo hàm mật độ xác suất đầu vào. Các bộ mã dự đoán thìch hợp cho các nguồn
tin có nhớ. Các bộ mã dự đoán có thể tạo ra hàm mật độ xác suất mới của nguồn với
phương sai thống kê và entropy nhỏ hơn một cách đáng kể so với nguồn. Sau đó nguồn đã
biến đổi được đưa vào VLC để giảm tốc độ bit. Mã entropy và mã dự đoán là những
phương pháp mã tốt trong kỹ thuật nén ảnh.
Các phép biến đổi khối là kỹ thuật chủ yếu để biểu thị thông tin không gian dưới
dạng có ìch cao cho việc lượng tử hoá và mã hoá VLC. Các bộ biến đổi khối có thể tạo ra
độ lợi mã bằng cách đóng gói hầu hết năng lượng khối vào một số ìt hơn các hệ số. Lợi
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
101
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
dụng độ dư thông tin lớn trong miền thời gian, phép bù chuyển động tạo ra các dự đoán
khung hiện tại trên cơ sở ước lượng chuyển động phối hợp khối giữa các khung ảnh hiện
tại và trước đó. Nói chung phép bù chuyển động làm tăng một cách đáng kể hiệu suất mã
video so với mã không gian thuần tuý. Sau đây ta lần lượt xét các giải pháp mã.
1- Mã entropy và mã dự đoán
Mã entropy sử dụng rất nhiều khái niệm cơ bản về lý thuyết thống kê và lý thuyết
thông tin. VLC và mã dự đoán sử dụng mô hính nguồn thông tin, trong đó coi nguồn
thông tin là một quá trính tạo ra một dãy các ký hiệu từ một tập chữ cái hữu hạn. Các
nguồn video được tạo ra từ một dãy các khối ảnh, các khối ảnh được tạo ra từ các ký hiệu
pixel. Số lượng các pixel có thể được tạo ra là , với n là số bit trên một pixel. Bậc mà
các ký hiệu ảnh được tạo ra phụ thuộc vào việc khối ảnh được sắp xếp hoặc được quét vào
dãy ký hiệu. Các bộ mã hoá không gian chuyển đổi các đặc trưng thống kê của ảnh gốc
với mục đìch là ma trận hệ số có thể được quét trong chừng mực nào đó sao cho nguồn
hoặc dãy các ký hiệu được tạo ra chứa đựng lượng tin ìt nhất.
2- Mã chuyển đổi khối bằng biến đổi Cosine rời rạc
3- Lƣợng tử hóa
Mục đìch của tầng lượng tử trong bộ mã video là tạo ra hính ảnh nén đảm bảo chất
lượng ảnh phù hợp. Lượng tử vô hướng và lượng tử véctơ là hai loại chủ yếu, chúng tiếp
tục được phân loại là lượng tử có nhớ hoặc không nhớ; đối xứng hoặc không đối xứng.
Bộ lượng tử vô hướng đồng nhất là bộ lượng tử cơ bản nhất. Nó xử lý đặc tình vào -
ra phi tuyến, chia khoảng vào thành các mức ra bằng nhau. Để bộ lượng tử làm giảm tốc
độ bit một cách hiệu quả thí số lượng các giá trị đầu ra cần phải nhỏ hơn nhiều so với số
lượng các giá trị đầu vào. Các giá trị tái cấu trúc được trọn tại điểm giữa của các mức đầu
ra nhằm mục đìch làm giảm thiểu MSE tái cấu trúc khi sai số lượng tử hoá có phân bố
đều. Các bộ lượng tử trong các bộ mã video theo chuẩn H.261, H.263, MPEG -1 và
MPEG - 2 gần như là các bộ lượng tử đồng nhất. Chúng có cỡ bước lượng tử cố định,
ngoại trừ khu vực “vùng chết” (khoảng đầu vào mà đầu ra là không).
Lượng tử hoá không đồng nhất được sử dụng cho các phân bố đầu vào không đều, vì
dụ như các nguồn ảnh tự nhiên. Bộ lượng tử mà tạo ra MSE nhỏ nhất đối với phân bố đầu
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT
102
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông
vào không đều thí sẽ có các bước không đều. So với bộ lượng tử đồng nhất thí bộ lượng
tử không đồng nhất có hiệu năng MSE tốt hơn một cách đáng kể khi số bước lượng tử
tăng lên. Điều này làm giảm đến mức tối thiểu tổng sai số tuyệt đối trong mỗi bước lượng
tử dựa vào phân bố đầu vào.
4- Bù và ƣớc lƣợng chuyển động
Kỹ thuật bù chuyển động được đề xuất từ những năm 1960 và được sử dụng để nâng
cao hiệu suất của các bộ nén video. Các bộ mã video bù chuyển động được thực hiện theo
ba giai đoạn:
- Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa
khung tái cấu trúc trước đó và khung hiện tại.
- Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng
các ước lượng chuyển động và khung tái cấu trúc trước đó.
- Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán
Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá về mặt
thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động
được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của
tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả
năng nén tìn hiệu mà các bộ mã hoá video có thể đạt được. Thuật toán này người ta
thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian
ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động
trong ảnh gần. Nếu nền không thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai
khung có thể được mã hoá thành một. Do đó tỷ lệ nén tăng gấp hai lần so với nén không
gian trong khung thứ nhất. Nhín chung, các nền không thay đổi hoặc tĩnh có thể cho thêm
độ lợi mã hoá.
Các file đính kèm theo tài liệu này:
- bai_giang_nhap_mon_da_phuong_tien_p2_3564.pdf