Bài giảng Nhập môn đa phương tiện - Chương 4: Dữ liệu ảnh

Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa khung tái cấu trúc trước đó và khung hiện tại. - Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng các ước lượng chuyển động và khung tái cấu trúc trước đó. - Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá về mặt thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả năng nén tìn hiệu mà các bộ mã hoá video có thể đạt được. Thuật toán này người ta thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động trong ảnh gần. Nếu nền không thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai khung có thể được mã hoá thành một.

37 trang | Chia sẻ: nguyenlam99 | Lượt xem: 983 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Bài giảng Nhập môn đa phương tiện - Chương 4: Dữ liệu ảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

(một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v. Bộ xử lý ảnh chuyên dụng: Xử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tìch hợp bộ nhớ đệm có tốc độ cao. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 74 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tìn hiệu video) thành hính ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp. Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số. 4.5 Hệ màu 4.5.1. Màu sắc Màu sắc được sử dụng trong các ứng dụng đồ họa máy tính để giúp người dùng hiểu rõ về đối tượng hính học. Các màn hính đồ họa sử dụng các Màu sắc chromatic. Chúng dựa trê n lý thuy ết v ề bộ não người là Màu sắc ánh sáng được tiếp nhận như sự phối hợp từ 3 Màu là đỏ (red), xanh lá cây (green), và anh dương (blue). Nói chung, Màu được mô tả bằng 3 thuộc tình là Màu sắc (hue), độ bão hòa (saturation), và độ sáng (brightness), chúng xác định vị trì trong quang phổ Màu, độ tinh khiết và cường độ sáng. Có hàng loạt phương pháp được tạo các mô hính Màu trong các ứng dụng đồ họa. Trong phần này chỉ đưa ra những mô hính Màu tiêu biểu hơn cả, giúp tím hiểu các ứng dụng đã lựa chọn Màu sắc thìch h ợp như thế nào. 4.5.2. Mô hình màu RGB Mô hính màu RGB mô tả màu sắc bằng 3 thành phần chình là Red - Green và Blue. Mô hình này được xem như một khối lập phương 3 chiều với màu red là trục x, Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 75 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông màu Green là truc y, và màu Blue là trục z. Mỗi màu trong mô hình này được xác định bởi 3 thành phần R, G, B. Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới . Trong hính lập phương trên, mỗi màu gốc (R,G,B) có các gốc đối diện là các màu bù với nó. Hai màu được gọi là bù nhau khi kết hợp hai màu này lại với nhau ra Màu trắng. Vì dụ : Green -Magenta, Red - Cyan, Blue - Yellow. Hệ màu RGB (Red - Green - Blue) ra đời đầu tiên dựa trên sự pha trộn từ 3 nguồn ánh sáng cơ bản là Red (đỏ cờ), Green (màu lục, xanh lá), và Blue (màu lam, xanh dương) để tạo nên tất cả các màu còn lại, ngoại trừ màu đen.  Màu đen: màu đen là "không màu", lúc cả 3 nguồn sáng đều tắt (lúc màn hính tối thui)  Màu trắng xuất hiện khi cả 3 nguồn sáng trên chiếu sáng ở cường độ tối đa Từ đây có thể dễ dàng suy ra các màu xám là do pha trộn 3 nguồn có cường độ chiếu sáng bằng nhau. Các màu khác là do sự hòa trộn 3 màu trên với tỉ lệ khác nhau theo qui tắc màu cộng (additive primaries) - cộng thêm màu từ màu đen ban đầu, là màu lúc màn hính "cúp điện", tối thui.. với thang màu từ 0 đến 255. Hính bên thí sự giao thoa 3 màu RGB tạo ra 3 màu thứ cấp, màu bậc 2 (pha trộn lần thứ nhất) là vàng (yellow), xanh da trời (cyan) và hồng cánh sen (Magagenta) RGB là hệ màu phổ biến cho các máy hiển thị hính bằng đèn phóng như màn hính vi tình, tivi màu, máy chiếu phim... 4.5.3. Mô hình màu CMYK Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 76 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Tương tự như mô hính màu RGB nhưng 3 thành phần chình là Cyan - Magenta - Yellow. Do đó, tọa độ các màu trong mô hình CMY trái ngược với mô hính RGB. Vì dụ : màu White có các thành phần là (0,0,0), màu Black (1,1,1), màu Cyan (1,0,0),... Trong in ấn thí "không màu" lại là màu trắng, đó là màu trang giấy hay mảnh vải lúc chưa in.... rắc rối phát sinh ví không thể sử dụng hệ màu RGB cho trường hợp này được. Vậy là một hệ màu mới được tạo riêng cho in ấn theo quy tắc màu trừ (subtractive primaries) - trừ bớt màu từ màu trắng ban đầu. 3 màu chình của hệ màu này là xanh cô- ban (Cyan, turquoise: màu xanh lơ), hồng cách sen (Magenta) và màu Vàng (Yellow) . Ba màu này, theo lý thuyết, khi trộn vào nhau ở cường độ cao nhất, sẽ tạo ra màu đen (ngược lại với trường hợp RGB), Thực chất 3 màu này là 3 màu đối nghịch với 3 màu cơ bản RGB, được pha trộn theo qui tắc màu trừ, sự thêm vào các màu này giống như là quá trính trừ bớt màu RGB từ màu trắng ban đầu (là màu lúc tờ giấy chưa in, còn mới, trắng tinh) thang màu từ 0 đến 100%. 4.5.4. Mô hình màu HSV Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 77 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Thực chất của mô hính này là sự biến đổi của mô hính RGB. Mô hình HSV được mô tả bằng lệnh lập phương RGB quay trên đỉnh Black. H (Hue) là góc quay trục V (value) qua 2 đỉnh Black và White. Các giá trị biến thiën của H, S, V như sau: (Hue) chỉ sắc thái có giá trị từ 00 - 3600 . S (Saturation) chỉ độ bão hoâ. V (Value) có giá trị từ 0 - 1. Các Màu đạt giá trị bão hòa khi s = 1 và v = 1. 4.6 Thu nhận và các thiết bị thu nhận ảnh Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này có thể cho ảnh đen trắng .Các thiết bị thu nhận ảnh có 2 loại chình ứng với 2 loại ảnh thông dụng Raster, Vector. Các thiết bị thu nhận ảnh thông thường Raster là camera các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh Raster. Nhín chung các hệ thống thu nhận ảnh thực hiện 1 quá trính: - Cảm biến: biến đổi năng lượng quang học thành năng lượng điện - Tổng hợp năng lượng điện thành ảnh 4.7 Biểu diễn ảnh Ảnh trên máy tình là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹthuật khác nhau. Quá trính lưu trữ ảnh nhằm 2 mục đìch: - Tiết kiệm bộnhớ - Giảm thời gian xử lý Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kìch thước nếu sử dụng càng nhiều điểm ảnh thí bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độphân giải. Việc lựa chọn độ phân giải thìch hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo 2 mô hính cơ bản 4.7.1. Mô hình Raster Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 78 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh). Thường thu nhận qua các thiết bị như camera, scanner. Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bìt. Mô hính Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm trung gian. Hình dưới thể hính quy trính chung để hiển thị ảnh Raster thông qua DIB. Một trong những hướng nghiên cứu cơ bản trên mô hính biểu diễn này là kỹ thuật nén ảnh các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén bảo toàn có khảnăng phục hồi hoàn toàn dữ liệu ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào đó. Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹthuật nén có khả năng phục hồi dữ liệu 100% và nén có khảnăng phục hồi với độ sai số nhận được. Quá trính hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 4.7.2. Mô hình Vector Biểu diễn ảnh ngoài mục đìch tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tím kiếm Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn. Trong mô hính vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hính ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trính số hoá. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 79 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster. Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster. Sự chuyển đổi giữa các mô hính biểu diễn ảnh 4.8 Nén ảnh Nhằm giảm thiểu không gian lưu trữ. Thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin. Nén không bảo toàn thí thường có khả năng nén cao hơn nhưng khả năng phục hồi thí kém hơn. Trên cơ sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:  Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thìch hợp. Một vì dụ điển hính cho kỹthuật mã hóa này là *.TIF  Nén ảnh không gian: Kỹ thuật này dựa vào vị trì không gian của các điểm ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau. Vì dụ cho kỹthuật này là mã nén *.PCX  Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy kỹ thuật thường hiệu quả hơn. *.JPG chình là tiếp cận theo kỹ thuật nén này.  Nén ảnh Fractal: Sử dụng tình chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tình toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal. 4.8.1. Nén JPEG 4.8.1.1. Tổng quan Các phương pháp nén JPEG thường tổn hao, có nghĩa là một số thông tin hính ảnh ban đầu là bị mất và không thể phục hồi, có thể ảnh hưởng đến chất lượng hính ảnh. 4.8.1.2. Mã hóa JPEG Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 80 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Mặc dù một tập tin JPEG có thể được mã hóa trong nhiều cách khác nhau, phổ biến nhất được thực hiện với mã hóa JFIF. Quá trính mã hóa bao gồm các bước:  Các đại diện của các màu sắc trong hính ảnh được chuyển đổi từ RGB sang YCbCr, bao gồm một thành phần luma (Y), đại diện cho độ sáng, và hai thành phần sắc độ (Cb và Cr), đại diện cho màu.  Giảm độ phân giải của dữ liệu, thường là một hệ số 2. Điều này phản ánh thực tế là mắt ìt nhạy cảm với các chi tiết màu sắc tốt hơn các chi tiết độ sáng tốt.  Hính ảnh được chia thành các khối điểm ảnh 8 × 8, và với mỗi khối, mỗi dữ liệu Y, Cb, và Cr trải qua một biến đổi cosin rời rạc (DCT).  Biên độ của các thành phần tần số được lượng tử hóa.  Các dữ liệu kết quả cho tất cả các khối 8 × 8 nén với một thuật toán không mất dữ liệu, một biến thể của mã hóa Huffman. Quá trính giải mã đảo ngược các bước này, ngoại trừ lượng tử bởi ví nó là không thể đảo ngược.  Mã hóa Nhiều tùy chọn trong tiêu chuẩn JPEG không được sử dụng phổ biến, trong khi những thứ khác quy định cụ thể các phương pháp mã hóa. Đây là một mô tả ngắn gọn của một trong các phương pháp mã hóa phổ biến khi áp dụng cho một đầu vào có 24 bit cho mỗi pixel.  Không gian biến đối màu Thứ nhất, hính ảnh được chuyển đổi từ RGB thành một không gian màu khác nhau gọi là YCbCr. Nó có ba thành phần Y, Cb và Cr: Y: thành phần đại diện cho độ sáng của điểm ảnh, và các thành phần Cb và Cr đại diện cho màu (chia thành các thành phần màu xanh và đỏ).  Lấy mẫu sắc độ Do đặc điểm về nhạy cảm trong mắt người đối với m ật độ của màu sắc và độ sáng, con người có thể cảm nhận tốt hơn đáng kể đối với độ sáng của một hính ảnh (thành phần Y) so với màu sắc và độ bão hòa màu sắc của một hính ảnh (các thành phần CbCr). Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 81 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông  Phân tách khối Sau khi lấy mẫu, mỗi kênh được chia thành các khối 8 × 8.  Biến đổi Cosin rời rạc Tiếp theo, mỗi khối 8 × 8 của mỗi thành phần (Y, Cb, Cr) chuyển đổi sang một miền tần số đại diện, thông thường là biến đổi cosin rời rạc (DCT) hai chiều.  Lượng tử hóa Mắt người có thể nhín thấy sự khác biệt về độ sáng trên một trên một tần số thấp, nhưng không phân biệt chình xác m ức độ của sự thay đổi độ sáng ở tần số cao. Điều này cho phép giảm đáng kể số lượng thông tin trong các thành phần tần số cao. Điều này được thực hiện đơn giản là bằng cách chia mỗi thành phần trong các mức tần số với một hằng số, và sau đó làm tròn đến số nguyên gần nhất.  Mã hóa Entropy Mã hóa entropy là một hính thức đặc biệt của nén không mất dữ liệu. Nó liên quan đến việc sắp xếp các thành phần hính ảnh trong một trật tự "ngoằn ngoèo" sử dụng thuật toán mã hóa duyệt chiều dài (RLE) tình toán tần số các nhóm tương tự nhau, chèn mã đánh sốchiều dài, và sau đó sử dụng mã hóa Huffman vào những gí còn lại. Quá trính mã hóa và giải mã JPEG tuần tự  Tỷ số nén JPEG Tỉ số nén có thể được thay đổi theo nhu cầu chất lượng trong các ước lượng được sử dụng trong giai đoạn lượng tử hóa. Tỉ số nén 10 :1 thường cho kết quả hính ảnh Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 82 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông mà không thể được phân biệt bằng mắt thường so với bản gốc. Tỉ số nén 100 : 1 thường có thể phân biệt rõ ràng so với bản gốc. Mức độ thìch hợp của tỉ số nén phụ thuộc vào việc sử dụng hính ảnh. 4.8.1.3. Giải mã JPEG a. Các bước giải mã Giải mã để hiển thị hính ảnh bao gồm tất cả các mã hóa theo chiều ngược lại. b. Yêu cầu về độ chính xác Quá trính mã hóa trong chuẩn JPEG không giúp khắc phục được độ chình xác cần thiết cho việc nén hính ảnh đầu ra. Tuy nhiên, chuẩn JPEG lại bao gồm một số yêu cầu nhằm tăng tình chình xác cho việc giải mã, đầu ra từ các thuật toán không được vượt quá: - Tối đa là 1 bit khác biệt cho mỗi Pixel - Chất lượng thấp có nghĩa lỗi một ô vuông trên mỗi khối 8 × 8 Pixel - Chất lượng rất thấp có nghĩa là lỗi trên mỗi khối 8 x 8 Pixel - Chất lượng rất thấp có nghĩa là lỗi ô vuông trên toàn bộ hính ảnh - Chất lượng quá thấp có nghĩa là lỗi trên toàn bộ hính ảnh 4.8.1.4. Hiệu ứng hình ảnh thu đƣợc khi nén JPEG Tỷ lệ nén cao ảnh hưởng nghiêm trọng đến chất lượng của hính ảnh, mặc dù màu sắc và hính thức tổng thể hính ảnh vẫn còn nhận ra. 4.8.2. Nén Fractal 4.8.2.1 Tổng quan Lý thuyết hính học Fractal là một ngành toán học hiện đại còn rất non trẻ. Bài toán trung tâm của lý thuyết là mô tả các đối tượng tự nhiên một cách hiệu quả dựa vào các công cụ toán học. Lý thuyết này do B.Mandelbrot đưa ra thông qua tác phẩm “Hính học Fractal trong tự nhiên”. 4.8.2.2 Thuật toán nén – giải nén a. Thuật toán nén ảnh Fractal Quá trính bắt đầu bằng việc phân hoạch ảnh cần nén thành các khối không lấp lên nhau gọi là các khối range, sau đó xác định một tập các khối domain. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 83 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Với mỗi khối range cần phải chọn được khối domain thìch hợp sao cho khi áp dụng một phép ánh xạ affirne co 3 chiều (về vị trì và độ xám), ảnh thu được có thể đối sánh tốt với khối range đang xét. b. Thuật toán giải nén Fractal Xuất phát từ dữ liệu nén chứa trong file ảnh Fractal, chúng ta xây dựng lại hệ hàm lặp tương ứng với ảnh khởi động bất kỳ và sau đó áp dụng liên tiếp hàm lặp này vào các ảnh thu được sau mỗi lần lặp cho đến khi thu được ảnh xấp xỉ tốt nhất với ảnh ban đầu. c. Các cách phân hoạch ảnh - Phân hoạch quadtree - Phân hoạch HV - Phân hoạch tam giác d. Phân loại Bước so sánh domain-range của nén ảnh Fractal có cường độ tình toán rất lớn. Để có thể giảm thời gian nén ảnh, chúng ta tạo sẵn các domain và đưa chúng vào một thư viện domain gọi là domain pool. Trước khi mã hóa, tất cả các domain trong thư viện domain được phân loại. Điều này tránh sự phân loại lại của các domain. e. Kết luận Dựa vào lý thuyết và các kiểm nhiệm thực tế, phương pháp nén ảnh này cho thấy: - Tỉ số nén cao: Điểm nổi bật nhất mà thuật toán nén và giải nén bằng kỹ thuật Fractal cung cấp được là tỉ số nén cực cao với chất lượng ảnh nén không thay đổi. - Tốc độ giải nén ảnh nhanh: Thuật toán được trính bày là một thuật toán không đối xứng ví các tình toán trong việc nén ảnh đòi hỏi một lượng thời gian lớn hơn rất nhiều lần so với thời gian giải nén. - Tình độc lập về độ phân giải giữa ảnh nén và ảnh gốc: Thuật toán nén ảnh và giải nén bằng kỹ thuật Fractal về thực chất đã cung cấp một bộ tạo sinh để vẽ lại ảnh gốc dựa trên một số cực nhỏ thông tin cần thiết ban đầu. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 84 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Chƣơng 5: Dữ liệu âm thanh 5.1. Một số khái niệm cơ bản - Âm thanh (audio): là dao động các sóng âm gây ra áp lực làm dịch chuyển các hạt vật chất trong môi trường đàn hồi làm tai người cảm nhận được các dao động này. Tai người có thể nghe được các dao động trong khoảng tần số 20Hz đến 20kHz. - Âm thanh tự nhiên: là sự kết hợp giữa các sóng âm mang tần số khác nhau. - Dải động của tai: giới hạn bởi ngưỡng nghe thấy (0dB) đến ngưỡng đau (120dB) của người. - Ngưỡng nghe tối thiểu: mức thấp nhất của biên độ mà tai người có thể cảm nhận được âm thanh tùy thuộc vào từng người, mức áp lực và tần số của âm thanh. - Hiệu ứng che khuất âm thanh: hiện tượng âm thanh mà tại đó ngưỡng nghe của một âm tăng lên trong khi có mặt của một âm khác (khó nghe hơn). Được sử dụng trong kỹ thuật nén. - Hướng âm thanh: tai và não có thể giúp ta xác định hướng âm thanh, điều này có thể ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround. - Vang và trễ: vang là hiện tượng kéo dài âm thanh sau khi nguồn âm đã tắt. Trễ là thời gian d âm thanh phản xạ đến đìch so với âm thanh trực tiếp. Nếu d > 50ms thí trễ đó gọi là tiếng vọng. Biên độ của âm thanh cứ sau một lần phản xạ thí bị suy giảm. 5.2. Ứng dụng của âm thanh Âm thanh đóng vai trò quan trọng trong các ứng dụng truyền thông đa phương tiện. Các hiệu ứng đặc biệt của âm thanh như âm nhạc và tiếng nói có thể được đưa vào các ứng dụng, đặc biệt là các ứng dụng trong hệ thống đào tạo và bán hàng tự động hoặc hệ thống điểm thông tin. Một lời chú thìch bằng tiếng nói có thể được dùng để diễn tả những gí đang diễn ra trên màn hính hoặc để làm nổi bật và nhấn mạnh những khái niệm then chốt. Âm thanh có thể được sử dụng kết hợp với hính ảnh tĩnh hoặc động để giải thìch cho người sử dụng một ý tưởng hay một quy trính hiệu quả hơn theo cách giải thìch Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 85 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông chỉ đơn giản bằng văn bản hay đồ họa, âm nhạc có thể được sử dụng để thu hút sự chú ý của khách hàng hoặc để tạo ra một phong cách riêng biệt. Trong một số lĩnh vực chuyên dụng tự âm thanh có thể hính thành lên sự lôi cuốn của một số ứng dụng truyền thông đa phương tiện, chẳng hạn như các hệ thống chỉ đường của người khiếm thị, ... Công nghệ xử lý âm thanh ngày càng được cải tiến, mối quan tâm của người dùng đến các hệ thống xử lý và nhận dạng tiếng nói trong các ứng dụng kinh doanh, an ninh, ... ngày càng tăng lên. 5.3. Kỹ thuật Audio số Để máy tình làm việc được với âm thanh, chúng phải được chuyển thành tìn hiệu số (digital) từ tìn hiệu tương tự. Quá trính này gọi là “lấy mẫu” (sampling), mỗi một phần của một thời gian lấy mẫu, tìn hiệu tương tự được ghi nhận lại thành những bit. Có 2 yếu tố ảnh hưởng đến chất lượng âm thanh: 1. Tần số lấy mẫu: - Tần số lấy mẫu là số lần mẫu được lấy trong một đơn vị thời gian. - Tần số chung nhất là: 11.025 kHz, 22.05 kHz, và 44.1 kHz. - Nếu tần số lấy mẫu cao hơn thí chất lương sẽ tốt hơn. 2. Số bit mã hoá (kích thước lấy mẫu): Quyết định tổng lượng thông tin có thể biểu diễn (mã hoá). Minh họa: Tìn hiệu analog và digital. - Kìch thước lấy mẫu thông thường là 8 bit và 16 bit. - Kìch thước lấy mẫu 8-bit cho 256 giá trị dùng để thể hiện âm thanh, nếu 16- bit thí cho 65. 536 giá trị. - Nếu kìch thước lấy mẫu cao hơn thí chất lượng sẽ tốt hơn. Kìch thước file của 10 giây ứng với giá trị tần số và số bit: Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 86 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Tần số Số Bit Kìch thước File 44.1 kHz 16 1.76 MB 44.1 kHz 8 882 KB 22.05 kHz 16 882 KB 22.05 kHz 8 440 KB 11.025 kHz 8 220 KB Sóng âm và cảm giác âm 5.4 Giới thiệu về âm thanh và hệ thống xử lý âm thanh 5.4.1. Âm thanh(Sound) Âm thanh về mặt cảm giác đó là sự cảm nhận của con người thông qua thình giác và bộ não. Âm thanh về mặt khoa học đó là sự vận động vật lý trong môi trường trung gian của các nguyên tử theo dạng sóng, các sóng này có tần số thay đổi theo thời gian. Người ta có thể mô tả chuyển động của sóng âm thanh bằng một đại lượng liên tục theo thời gian, nói cách khác có thể mô tả âm thanh bằng đại lượng analog theo cách sau: Sóng âm thanh lan truyền trong không khì tác động lên vật chắn có nối với nguồn điện, sóng âm thanh tạo nên áp suất thay đổi lên vật chắn làm cho điện thế V của nguồn điện thay đổi liên tục - điện thế chình là biểu diễn sự thay đổi liên tục của sóng âm thanh, người ta nói rằng đại lượng biểu diễn sự thay đổi của sóng âm thanh theo thời gian là đại lượng analog (tương tự). Nguồn tín hiệu (Analog) Chuyển đổi Analog-Digital Xử lý, Lưu trữ, Truyền dẫn (Digital) Chuyển đổi Analog-Digital Xuất âm hiển thị Analog Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 87 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông  Chu kỳ và tần số Như chúng ta đã biết, đối với sóng âm có một số thuộc tình quan trọng sau: Chu kỳ (period), tần số (frequence), tốc độ (speed), biên độ (amplitude), - Chu kỳ là khoảng thời gian xuất hiện liên tiếp của đỉnh sóng tại một điểm; kí hiệu T - Tần số là là số chu kỳ diễn ra trong một đơn vị thời gian tình theo giây. Đơn vị của tần số tính bằng Hertz (Hz). Kí hiệu là f. Giữa chu kỳ và tần số có mối liên hệ sau: T=1/f. Tai người nhạy cảm với một dải rộng các tần số , bính thường từ 22Hz đến 22000 Hz điều này phụ thuộc vào sức khỏe người nghe. Dải tần từ 22Hz đến 22000 Hz gọi là dải nghe được. Tiếng nói con người thường nằm trong giải tần 500Hz đến 22000 Hz. Tốc độ âm thanh phụ thuộc vào môi trường nó lan truyền vì dụ nhiệt độ không khì, ở nhiệt độ 20c sóng âm thanh lan truyền với tốc độ 343,8 met/s. - Độ rộng tần số (Banwithd ) : sự khác nhau giữa tần số cực đại và cực tiểu - Biên độ (amplitude): là giá trị lớn nhất của hàm trong mọi chu kỳ; Biên độ của sóng âm thanh là tính chất quan trọng, nhờ nó người ta cảm nhận được độ to nhỏ (loudness) của âm thanh. - Độ ồn của âm thanh: Độ ồn của âm thanh con người có thể cảm nhận được bằng tai Đơn vị đo tiếng ồn là decibel (db). Nó được xác định bởi Ở đây - P1,P2 là năng lượng được đo bằng watt, jul, gram.cm/s.. hay đại lượng vật lý nào đó mà đơn vị đo của nó là năng lượng trên thời gian (power per time) Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 88 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông - Level – là mức độ ồn 5.4.2. Đặc tính của âm thanh tƣơng tự Mục đìch của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tìn hiệu mang nội dung thông điệp, như là dạng sóng âm thanh. Hình dạng sóng của tìn hiệu ghi nhận được từ âm thanh của người Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khì khác nhau. Điện áp đến từ một microphone là tìn hiệu tương tự của áp suất không khì (hoặc đôi khi là vận tốc). Dù được phân tìch bằng cách thức nào, thí các phương pháp khi so sánh với nhau phải dùng một tỉ lệ thời gian. Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết bị cổ điển, các tiêu chuẩn xử lý thí hầu như không có gí thay đổi, mặc dù công nghệ có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn. Hệ thống xử lý âm thanh số lý tưởng có những tình năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tìn hiệu số sẽ truyền trong khoảng cách ngắn hơn tìn hiệu tương tự và với chi phì thấp hơn. Thông tin dùng để truyền đạt của âm thoại về bản chất có tình rời rạc, và nó có thể Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 89 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme). Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50. Vì dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị. Tìn hiệu thoại được truyền với tốc độ như thế nào? Đối với tìn hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thí tốc độ truyền ước lượng có thể tình được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bính 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bính của âm thoại khoảng 60bit/giây. Trong hệ thống truyền âm thoại, tìn hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thí có hai điều cần quan tâm chung là: 1. Việc duy trí nội dung của thông điệp trong tìn hiệu thoại 2. Việc biểu diễn tìn hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tìn hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại. Việc biểu diễn tìn hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ dàng trìch ra bởi người nghe, hoặc bởi các thiết bị phân tìch một cách tự động. 5.4.3. Khái niệm tín hiệu Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, vì dụ như: - Âm thanh, tiếng nói: dao động sóng theo thời gian (t) - Hình ảnh: cường độ sáng theo không gian (x, y, z) - Địa chấn: chấn động địa lý theo thời gian - Biểu diễn toán học của tín hiệu: hàm theo biến độc lập Vì dụ: Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 90 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông - u(t) = 2t2 − 5 - f (x, y) = x2 − 2xy − 6y2 Chú ý: Thông thường các tìn hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho nên trong tình toán, người ta thường dùng hàm xấp xỉ cho các tìn hiệu tự nhiên. Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trính thực hiện các phép toán trên tìn hiệu nhằm biến đổi tìn hiệu, rút trìch thông tin, Việc thực hiện phép toán còn được gọi là xử lý tìn hiệu. 5.4.4. Phân loại tín hiệu Tìn hiệu đa kênh: gồm nhiều tìn hiệu thành phần, cùng chung mô tả một đối tượng nào đó (thường được biểu diễn dưới dạng vector, vì dụ như tìn hiệu điện tim (ECG- ElectroCardioGram), tìn hiệu điện não (EEG – ElectroEncephaloGram), tìn hiệu ảnh màu RGB. Tìn hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, vì dụ như tìn hiệu hình ảnh, tìn hiệu tivi trắng đen. Tìn hiệu liên tục theo thời gian: là tìn hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t) . Hính 1.2 Tìn hiệu liên tục theo thời gian Tìn hiệu rời rạc thời gian: là tìn hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n) . Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 91 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Hính 1.3 Tìn hiệu rời rạc theo thời gian Tìn hiệu liên tục giá trị: là tìn hiệu có thể nhận trị bất kỳ trong đoạn [ , ] min max Y Y , vì dụ tìn hiệu tương tự (analog). Hình 1.4 Tìn hiệu liên tục giá trị Tìn hiệu rời rạc giá trị: tìn hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tìn hiệu số). Hính 1.5 Tìn hiệu rời rạc giá trị Tìn hiệu analog: là tìn hiệu liên tục về thời gian, liên tục về giá trị. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 92 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Hính 1.6 Tìn hiệu analog Tìn hiệu số: là tìn hiệu rời rạc về thời gian, rời rạc về giá trị. Hính 1.7 Tìn hiệu số Tìn hiệu ngẫu nhiên: giá trị của tìn hiệu trong tương lai không thể biết trước được. Các tìn hiệu trong tự nhiên thường thuộc nhóm này Tìn hiệu tất định: giá trị tìn hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ, thông thường có công thức xác định rõ ràng. 5.4.5 Phân loại hệ thống xử lý Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý số: là hệ thống có thể lập trính được, dễ mô phỏng, cấu hính, sản xuất hàng loạt với độ chình xác cao, giá thành hạ, tìn hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực hiện với các tìn hiệu có tần số cao. 5.5. Nén âm thanh 5.5.1. Các phƣơng pháp nén âm thanh đơn giản Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 93 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông  Các phương pháp nén khảo sát ở khoảng hiệu quả trong việc nén âm thanh.  Sau đây là các phương pháp nén có tổn thất: - Nén “silence”: dò các khoảng “yên lặng”, giống như mã hóa run – length. - LPC (Linear Predictive Coding) - CELP (Code Excited Linear Predictor) 5.5.2. Nén âm thanh dùng mô hình âm – tâm lý a. Hệ thống nghe và phát âm của con người  Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz.  Phạm vi phát âm bính thường từ 500 Hz đến 2 kHz. b. Che tần số (Frequency masking) “Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số và mức to (dB) xác định sẽ có một “ngưỡng che” (xem hính 4.3 vaø 4.4) c. Băng giới hạn  Thước đo tần số đồng bộ không tương xứng với độ rộng của ngưỡng cong che.  Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng lên đối với các tần số >500Hz.  Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen) 1 Bark = bề rộng của băng giới hạn: - Tần số <500Hz : 1 bark = freq/100. - Tần số >500Hz : 1 bark = 9 + 4log(freq/1000).  Ngöôõng che treân thöôùc ño baêng giôùi haïn: Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 94 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông d. Che nhaát thôøi (Temporal masking): che theo thôøi gian. Tai ngöôøi cuõng coù ñaëc tính löu aâm. Neáu coù moät aâm thanh lôùn, roài ngöng noù laïi, maõi moät luùc sau ta môùi coù theå nghe ñöôïc moät aâm laân caän nhoû hôn (xem hình 4.5 vaø 4.6). 5.5.3. Neùn aâm thanh MPEG Vaøi thoâng soá:  MPEG-1 : 1.5Mbits/s cho aâm thanh vaø hình aûnh. Khoaûng 1.2 Mbits cho hình aûnh vaø 0.3Mbits/s cho aâm thanh. Aâm thanh CD khoâng neùn duøng: (44,100 maãu/s * 16bit/maãu * 2 keânh) > 1.4 Mbits/s  Aâm thanh MPEG cung caáp caùc taàn soá laáy maãu laø 32, 44.1 vaø 48 kHz.  Giaûi thuaät: 1. Dùng bộ lọc thông để chia tìn hiệu âm thanh thành các sub-band theo tần số, tương ứng với 32 băng giới hạn  lọc sub-band. 2. Xác định số lượng che của mỗi band gây bởi các band lân cận bằng các kết quả bước 1  mô hình âm – tâm lý. 3. Nếu mức to của một băng mà nhỏ hơn ngưỡng che thí không mã hóa nó. 4. Ngược lại, xác định số bit cần thiết để mã hóa sao cho nhiễu sinh ra bởi việc lượng tử hóa này thấp hơn đường cong che. 5. Ñònh daïng doøng döõ lieäu bit : Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 95 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Ví duï: Sau khi phaân tích, 16 band ñaàu tieân trong soá 32 band nhö sau: _________________________________________________________ Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Level(dB) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 _________________________________________________________  Neáu möùc to cuûa aâm thöù 8 laø 60dB, noù seõ che band thöù 7 ôû möùc 12dB vaø band thöù 9 ôû möùc 15dB. Möùc to ôû band 7 laø 10dB (<12dB) neân bò boû qua, khoâng maõ hoùa. Möùc to band 9 laø 35 (> 15dB) neân ñöôïc tieáp tuïc xöû lyù.  Layer I: boä loïc loaïi DCT vôùi 1 frame vaø ñoä roäng taàn soá nhö nhau treân moãi sub- band. Moâ hình aâm-taâm lyù chæ söû duïng hieäu quaû che taàn soá (Frequency masking).  Layer II: söû duïng 3 frame trong boä loïc (tröôùc, hieän taïi vaø keá tieáp, toång coäng 1152 maãu). Moâ hình aâm-taâm lyù coù söû duïng hieäu quaû che nhaát thôøi (Temporal masking).  Layer III: duøng boä loïc baêng giôùi haïn toát hôn, moâ hình aâm-taâm lyù coù söû duïng hieäu quaû che nhaát thôøi, vaø coù duøng boä maõ hoaù Huffman. Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 96 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Chƣơng 6: Dữ liệu video 6.1. Một số khái niệm cơ bản  Trính tự video số bao gồm các frame hay ảnh sẽ trính chiếu theo tốc độ cố định. Tốc độ chuyển động của frame video được xác định bởi các yếu tố: - Tốc độ frame đủ cao để chuyển động trơn tru (trên 25 frame/sec). - Tốc độ frame càng cao đòi hỏi băng thông càng lớn để truyền tìn hiệu video. - Ảnh trên màn hính mất đi nếu không được làm tươi sau chu kỳ ngắn. Nếu khoảng cách làm tươi quá lớn sẽ làm màn hính nhấp nháy (cần trên 50 lần/sec). Với tần số này sẽ làm băng thông tăng đáng kể, do vậy, kỹ thuật hiển thị interlace được sử dụng. TV sử dụng 2 lần quét dọc (gọi là field) /frame.  Trên cơ sở các yếu tố trên, hai tốc độ frame được sử dụng cho TV là: 25 frame (50 field)/sec cho chuẩn PAL (châu Âu, China, Australia) và 30 frame/s cho chuẩn NTSC (Bắc Mỹ và Japan). Chọn 50 và 60 field để phù hợp với tần số điện nguồn của các nước tương ứng.  Hai đặc trưng chình của video là có chiều thời gian và có lượng dữ liệu khổng lồ. Thì dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc độ frame là 30 frame/s đòi hỏi 13.8 GB bộ nhớ. Do vậy, việc nén video là nhu cầu cần thiết. 6.2. Nén video Để truyền được các chương trính video trên các hệ thống thông tin di động, một bài toán đặt ra là phải nén hính ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất lượng hính ảnh. Đây là một yêu cầu đã và đang được nhiều nhà nghiên cứu quan tâm. Truyền dẫn số tìn hiệu ảnh động qua các hệ thống vệ tinh đã được nghiên cứu từ năm 1990, trong đó nén video bằng phương pháp mã hoá đóng vai trò rất quan trọng. Cho đến nay, khi các hệ thống thông tin di động 3G và hệ thống NGN ra đời cho phép truyền các chương trính video trên đó thí việc nghiên cứu tím ra các giải pháp nén mới càng đòi hỏi cấp thiết hơn bao giờ hết. Nhóm chuyên gia về hính ảnh động (MPEG) đã hoàn thiện hai bộ tiêu chuẩn về mã hoá video là MPEG -1 và MPEG -2, xác định các phương pháp truyền thông tin video số theo các định dạng truyền hính và đa môi trường. Ngày nay MPEG -4 đang nhắm vào việc truyền video tốc độ bit rất thấp; còn MPEG -7 đưa ra Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 97 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông chuẩn hoá trong các dịch vụ lưu trữ và phục hồi video. Trong hoàn cảnh mạng thế hệ mới NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải tìn hiệu video số với mục đìch làm cho chất lượng hính ảnh tốt hơn, băng tần truyền dẫn thấp hơn. Nén video số là một quá trính trong đó người ta tím các giải pháp để giảm số lượng số liệu biểu thị hính ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lượng video được khôi phục ở phìa thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tình toán. Nén video có nhiệm vụ rất quan trọng ví lượng dư của số liệu trong các hính ảnh nguyên thủy thường lớn hơn nhiều dung lượng mà các thiết bị điện tử ngày nay có thể xử lý. Ta cũng biết rằng thông tin và số liệu là hai khái niệm khác nhau nhưng liên quan chặt chẽ với nhau. Số liệu biểu thị thông tin và chất lượng số liệu có thể đo được. Nội dung của số liệu video thường được đo bằng số đơn vị bit; còn thông tin được xác định bằng sự nhận biết. Như vậy toàn bộ số liệu biểu thị sự nhận biết, tuy vậy nó cũng có đơn vị đo của nó. Nén video trong truyền video Tốc độ bit hay còn gọi là tốc độ mã hóa là một tham số quan trọng trong nén video và thường được biểu thị bằng đơn vị bit/giây. Trong mã hóa nguồn tin, đôi lúc tốc độ bit được biểu thị bit trên ký hiệu. Chất lượng hính ảnh được cấu trúc lại ở phìa thu phụ thuộc vào ứng dụng ví vậy sẽ có loại nén tổn thất và nén không tổn thất. Trong ứng dụng truyền các ảnh động, các chương trính truyền hính thí cho phép một lượng tổn thất nào đó. 6.3.1. Độ dƣ thừa trong tín hiệu video a. Độ dƣ thống kê của ảnh Độ dư thống kê có thể được phân thành hai kiểu: độ dư giữa các pixel và độ dư mã hóa. Độ dư giữa các pixel có nghĩa là các pixel của một khung ảnh và các pixel của một Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 98 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông nhóm các khung ảnh hoặc video liên tiếp không độc lập thống kê với nhau. Trái lại, chúng tương quan với nhau theo mức độ khác nhau. Kiểu tương quan giữa các pixel như vậy được coi là độ dư giữa các pixel. Độ dư giữa các pixel có thể được chia thành hai loại: độ dư không gian và độ dư thời gian. Độ dư mã hoá là độ dư thống kê liên quan đến các kỹ thuật mã hóa  Độ dƣ không gian Độ dư không gian thể hiện mối tương quan thống kê giữa các pixel trong một khung ảnh. Do đó nó còn được gọi là độ dư ngoài khung. Ta biết rằng các giá trị cường độ của các pixel thuộc một hàng (hoặc một cột) có hệ số tự tương quan rất cao (gần bằng độ tự tương quan cực đại là 1) với các giá trị cường độ của các pixel thuộc chình hàng đó (hoặc chình cột đó) nhưng bị dịch đi một pixel. Điều này không hề bất ngờ bởi ví hầu hết các giá trị cường độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại trừ các miền ría.  Độ dƣ thời gian Độ dư thời gian có liên quan với tương quan thống kê giữa các pixel của các khung liên tiếp trong một dãy ảnh hoặc video theo thời gian. Ví vậy nó còn được gọi là độ dư giữa các khung.  Độ dƣ mã Như đã nói ở trên, độ dư giữa các pixel liên quan đến độ tương quan giữa các pixel. Điều đó có nghĩa rằng một số thông tin liên quan đến các pixel là thừa. Độ dư về khả năng nhín có liên quan đến những thông tin dư thừa về mặt nhín thấy được, tức là với nó hệ thống nhín của con người (HVS) không nhạy. Do vậy, rõ ràng cả hai độ dư là độ dư giữa các pixel và độ dư khả năng nhín ví một lý do nào đó gắn với một số thông tin chứa trong hình ảnh và video. Loại bỏ các độ dư này hoặc sử dụng các mối tương quan này bằng cách sử dụng số bit ìt hơn để biểu diễn thông tin sẽ cho ta kết quả nén dữ liệu hính ảnh và video. Với nghĩa đó thí độ dư mã là khác, nó không thực hiện việc gí đối với sự dư thừa thông tin mà nó thực hiện với việc biểu diễn thông tin, nghĩa là chình việc mã hoá. Từ việc nghiên cứu độ dư mã, rõ ràng là chúng ta nên tím kiếm các kỹ thuật mã hiệu quả Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 99 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông hơn để nén dữ liệu hính ảnh và video. Mã Huffman và mã số học là hai kỹ thuật mã hóa VLC thường được dùng trong xử lý ảnh và video. b. Độ dƣ khả năng nhìn thấy Trong khi độ dư giữa các pixel vốn đã có trong số liệu hính ảnh và video, độ dư khả năng nhín thấy bắt nguồn từ các đặc trưng về hệ thống nhín của con người. Ta biết rằng HVS cảm nhận được thế giới bên ngoài theo một cách thức khá phức tạp. Đáp ứng của nó đối với các tác nhân nhín không phải là một hàm tuyến tình theo cường độ của một vài thuộc tình vật lý, như độ sáng và màu. Năng lực tri giác của HVS khác hẳn với độ nhạy của camera. Trong HVS, thông tin nhín thấy không được cảm nhận như nhau, một số thông tin có thể quan trọng hơn một số thông tin khác. Điều đó có nghĩa rằng nếu chúng ta sử dụng ìt dữ liệu hơn để biểu diễn những thông tin ìt quan trọng hơn về nhín thấy thí khả năng cảm nhận sẽ không bị ảnh hưởng. Theo nghĩa đó, chúng ta thấy rằng một số thông tin có liên quan đến thị giác là dư thừa về khả năng nhín thấy. Loại bỏ sự dư thừa khả năng nhín thấy này chình là nén dữ liệu. 6.3.2. Nhu cầu cần thiết nén video Những thành tựu đạt được trong công nghệ điện tử - viễn thông - tin học đã tạo điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hính độ phân giải cao... Video là một dãy các khung ảnh bao gồm một lượng khổng lồ các số liệu, vì dụ mỗi khung video có độ phân giải 288 dòng và 352 pixel trên một giây. Mỗi một màu trong ba màu chình (đỏ, xanh, xanh da trời) được biểu thị bằng 1 pixel có 8 bit và thông thường tốc độ khung truyền là 30 khung trên một giây để tạo ra video chuyển động liên tục. Tốc độ bit yêu cầu là: 288×352×8×3×30 = 72.990.720 bit/s. Do đó tỷ số giữa tốc độ bit cần thiết và tốc độ bit có thể lớn nhất khoảng 1289 lần. Điều này chứng tỏ rằng chúng ta cần phải nén số liệu video ìt nhất là 1289 lần để truyền được trên mạng viễn thông. 6.3.3. Khái niệm về nén video Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 100 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông Các phương tiện liên lạc video qua kênh thông tin số thế hệ mới yêu cầu rất lớn về việc truyền thông tin. Nén video được xem xét ở đây bao hàm việc làm giảm tốc độ bit mã tìn hiệu video số mang thông tin nhín được hoặc loại bỏ các phần tử dư thừa trong tìn hiệu. Mức độ mà bộ mã hoá làm giảm tốc độ bit được gọi là hiệu suất mã và nghịch đảo của hiệu suất mã được gọi là tỷ số nén: Nén có làm tổn thất hoặc không làm tổn thất thông tin. Tổn thất thông tin thường được tính bằng sai số trung bính bính phương (MSE), sai số tuyệt đối trung bình (MAE) hoặc tỷ số tìn hiệu đỉnh trên nhiễu (PSNR): 6.3.4. Một số kỹ thuật nén video Nói chung các hệ thống nén video bao gồm hai phương thức làm giảm độ dư thông tin trong các miền không gian và thời gian. Nén không gian và lượng tử hoá hoạt động trên một khối ảnh duy nhất bằng cách sử dụng các đặc tình ảnh cục bộ để giảm tốc độ bit. Bộ mã hoá không gian cũng có VLC được đặt sau tầng lượng tử hoá. Tầng VLC tạo ra mã không tổn thất của khối ảnh đã được lượng tử. Bộ nén miền thời gian sử dụng các phương thức dòng quang (thường ở dạng phương pháp ước lượng chuyển động phối hợp khối) để nhận dạng và giảm độ dư thời gian. Các bộ mã hoá entropy là các bộ mã hoá không tổn thất được sử dụng trong tầng VLC của hệ thống nén video. Chúng được sử dụng tốt nhất cho các nguồn tin không nhớ và tối thiểu hoá tốc độ bit bằng cách ấn định các mã với độ dài thay đổi cho các giá trị đầu vào tuỳ theo hàm mật độ xác suất đầu vào. Các bộ mã dự đoán thìch hợp cho các nguồn tin có nhớ. Các bộ mã dự đoán có thể tạo ra hàm mật độ xác suất mới của nguồn với phương sai thống kê và entropy nhỏ hơn một cách đáng kể so với nguồn. Sau đó nguồn đã biến đổi được đưa vào VLC để giảm tốc độ bit. Mã entropy và mã dự đoán là những phương pháp mã tốt trong kỹ thuật nén ảnh. Các phép biến đổi khối là kỹ thuật chủ yếu để biểu thị thông tin không gian dưới dạng có ìch cao cho việc lượng tử hoá và mã hoá VLC. Các bộ biến đổi khối có thể tạo ra độ lợi mã bằng cách đóng gói hầu hết năng lượng khối vào một số ìt hơn các hệ số. Lợi Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 101 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông dụng độ dư thông tin lớn trong miền thời gian, phép bù chuyển động tạo ra các dự đoán khung hiện tại trên cơ sở ước lượng chuyển động phối hợp khối giữa các khung ảnh hiện tại và trước đó. Nói chung phép bù chuyển động làm tăng một cách đáng kể hiệu suất mã video so với mã không gian thuần tuý. Sau đây ta lần lượt xét các giải pháp mã. 1- Mã entropy và mã dự đoán Mã entropy sử dụng rất nhiều khái niệm cơ bản về lý thuyết thống kê và lý thuyết thông tin. VLC và mã dự đoán sử dụng mô hính nguồn thông tin, trong đó coi nguồn thông tin là một quá trính tạo ra một dãy các ký hiệu từ một tập chữ cái hữu hạn. Các nguồn video được tạo ra từ một dãy các khối ảnh, các khối ảnh được tạo ra từ các ký hiệu pixel. Số lượng các pixel có thể được tạo ra là , với n là số bit trên một pixel. Bậc mà các ký hiệu ảnh được tạo ra phụ thuộc vào việc khối ảnh được sắp xếp hoặc được quét vào dãy ký hiệu. Các bộ mã hoá không gian chuyển đổi các đặc trưng thống kê của ảnh gốc với mục đìch là ma trận hệ số có thể được quét trong chừng mực nào đó sao cho nguồn hoặc dãy các ký hiệu được tạo ra chứa đựng lượng tin ìt nhất. 2- Mã chuyển đổi khối bằng biến đổi Cosine rời rạc 3- Lƣợng tử hóa Mục đìch của tầng lượng tử trong bộ mã video là tạo ra hính ảnh nén đảm bảo chất lượng ảnh phù hợp. Lượng tử vô hướng và lượng tử véctơ là hai loại chủ yếu, chúng tiếp tục được phân loại là lượng tử có nhớ hoặc không nhớ; đối xứng hoặc không đối xứng. Bộ lượng tử vô hướng đồng nhất là bộ lượng tử cơ bản nhất. Nó xử lý đặc tình vào - ra phi tuyến, chia khoảng vào thành các mức ra bằng nhau. Để bộ lượng tử làm giảm tốc độ bit một cách hiệu quả thí số lượng các giá trị đầu ra cần phải nhỏ hơn nhiều so với số lượng các giá trị đầu vào. Các giá trị tái cấu trúc được trọn tại điểm giữa của các mức đầu ra nhằm mục đìch làm giảm thiểu MSE tái cấu trúc khi sai số lượng tử hoá có phân bố đều. Các bộ lượng tử trong các bộ mã video theo chuẩn H.261, H.263, MPEG -1 và MPEG - 2 gần như là các bộ lượng tử đồng nhất. Chúng có cỡ bước lượng tử cố định, ngoại trừ khu vực “vùng chết” (khoảng đầu vào mà đầu ra là không). Lượng tử hoá không đồng nhất được sử dụng cho các phân bố đầu vào không đều, vì dụ như các nguồn ảnh tự nhiên. Bộ lượng tử mà tạo ra MSE nhỏ nhất đối với phân bố đầu Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 102 Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông vào không đều thí sẽ có các bước không đều. So với bộ lượng tử đồng nhất thí bộ lượng tử không đồng nhất có hiệu năng MSE tốt hơn một cách đáng kể khi số bước lượng tử tăng lên. Điều này làm giảm đến mức tối thiểu tổng sai số tuyệt đối trong mỗi bước lượng tử dựa vào phân bố đầu vào. 4- Bù và ƣớc lƣợng chuyển động Kỹ thuật bù chuyển động được đề xuất từ những năm 1960 và được sử dụng để nâng cao hiệu suất của các bộ nén video. Các bộ mã video bù chuyển động được thực hiện theo ba giai đoạn: - Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa khung tái cấu trúc trước đó và khung hiện tại. - Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng các ước lượng chuyển động và khung tái cấu trúc trước đó. - Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá về mặt thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả năng nén tìn hiệu mà các bộ mã hoá video có thể đạt được. Thuật toán này người ta thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động trong ảnh gần. Nếu nền không thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai khung có thể được mã hoá thành một. Do đó tỷ lệ nén tăng gấp hai lần so với nén không gian trong khung thứ nhất. Nhín chung, các nền không thay đổi hoặc tĩnh có thể cho thêm độ lợi mã hoá.

Các file đính kèm theo tài liệu này:

bai_giang_nhap_mon_da_phuong_tien_p2_3564.pdf