Bài báo trình bày một thuật toán sử dụng tổ
hợp thẻ và thuộc tính của thẻ trong cấu trúc
siêu văn bản để biểu diễn thông tin mật. Với
việc thay đổi tuần tự của thuộc tính trong
thẻ, văn bản giấu tin không bị ảnh hƣởng về
nội dung hiển thị trong trình duyệt mà cấu
trúc của văn bản cũng không xáo trộn đáng
kể. Mặt khác, do số lƣợng thuộc tính của
thẻ lớn nên số lƣợng tổ hợp đƣợc tạo ra
tƣơng đối lớn dẫn đến độ phức tạp trong
quá trình thám mã thông tin mật.
9 trang |
Chia sẻ: dntpro1256 | Lượt xem: 659 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phương pháp tổ hợp thẻ và thuộc tính trong giấu tin trên định dạng siêu văn bản, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
PHƢƠNG PHÁP TỔ HỢP THẺ VÀ THUỘC TÍNH
TRONG GIẤU TIN TRÊN ĐỊNH DẠNG SIÊU VĂN BẢN
Tạ Minh Thanh
٭
, Nguyễn Hiếu Minh
Khoa Công nghệ Thông tin, Học viện Kỹ thuật Quân sự
TÓM TẮT
Bài báo đề xuất các phƣơng án giấu tin trên định dạng siêu văn bản HTML. Bằng
phƣơng thức sắp xếp trật tự của thẻ và thuộc tính của thẻ trong định dạng siêu văn bản,
phƣơng pháp của bài báo chỉ làm thay đổi cấu trúc của văn bản giấu tin mà không làm
ảnh hƣởng đến nội dung của văn bản. Trên phƣơng diện kỹ thuật, việc cho phép thay đổi
linh hoạt cấu trúc của định dạng văn bản sẽ tạo ra những thuận lợi trong việc biểu diễn
thông tin mật mà không gây ra những thay đổi quá lớn đến văn bản giấu tin.
Từ khóa: Kỹ thuật giấu tin, định dạng siêu văn bản, steganography.
ĐẶT VẤN ĐỀ
Trong những năm gần đây, World Wide
Web (WWW) đã phát triển mạnh mẽ và
tạo nên một môi trƣờng tiện dụng, thân
thiện trong việc trao đổi thông tin giữa
ngƣời sử dụng. WWW là một môi trƣờng
mà trong nó cho phép các định dạng siêu
văn bản đƣợc triển khai để chuyển tải
thông tin đến ngƣời sử dụng nhƣ
Website, Web Server,
Một trang Web là một phần của Website,
nó là một văn bản đƣợc gửi đến cho
ngƣời sử dụng bởi Web Server. Ngƣời
sử dụng sẽ dùng các trình duyệt Web
nhƣ Internet Explore, Firefox, để mở
một trang Web. Thông qua các trình
duyệt, nội dung của các trang Web sẽ
đƣợc hiển thị chính xác và có thể link
đến các trang Web liên quan thông qua
mạng internet.
Trên thực tế, các dữ liệu định dạng siêu
văn bản không chỉ chứa nội dung thông tin
cần chuyển tải đến ngƣời sử dụng, mà còn
chứa các thông tin về cấu trúc của các thẻ
(tags) và thuộc tính (attributes) của các thẻ
giúp các trình duyệt hiểu đƣợc cách trình
Tạ Minh Thanh, Email: taminhjp@gmail.com
bày và hiển thị trang Web. Những thông tin
về thẻ và thuộc tính của một trang Web
đƣợc định nghĩa bởi ngôn ngữ đánh dấu
siêu văn bản HTML (HyperText Markup
Language) do W3C [1] tạo lập.
Bài báo quan tâm đến đặc điểm của ngôn
ngữ đánh dấu siêu văn bản sau: Ngôn
ngữ HTML chỉ hiển thị thông tin văn bản
mà không hiển thị cấu trúc của thẻ và
thuộc tính của thẻ; Khi thay đổi một trong
các thuộc tính của thẻ thì không làm thay
đổi nhiểu hiển thị nội dung của trang
Web. Dựa trên những đặc điểm này của
ngôn ngữ định dạng siêu văn bản, bài
báo đề xuất phƣơng pháp sử dụng thẻ và
thuộc tính của thẻ để giấu các thông tin
mật vào văn bản HTML mà không bị phát
hiện do có thay đổi cấu trúc bởi các trình
duyệt Web. Ngoài ra, với thuật toán đƣa
ra trong bài báo, dung lƣợng tin mật
đƣợc giấu trong văn bản đƣợc tăng lên
mà không làm ảnh hƣởng đến hiển thị
thông tin trên trình duyệt Web.
Phần 2 của bài báo trình bày khái niệm
chung của giấu tin mật và nhấn mạnh
tầm quan trọng của giấu tin mật trong
thời đại phát triển công nghệ thông tin
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
hiện nay. Phần 3 giới thiệu các phƣơng
pháp giấu tin trong văn bản đã đƣợc đề
xuất và phân tích những nhƣợc điểm của
các phƣơng pháp này. Tiếp theo,
phƣơng pháp giấu tin trong văn bản bằng
kỹ thuật tổ hợp thẻ và thuộc tính của thẻ
đƣợc đƣa ra trong phần 4 và 5, đồng
thời, đánh giá khả năng giấu tin và tính
bảo mật của phƣơng pháp. Cuối cùng,
bài báo tổng kết kết quả và đƣa ra hƣớng
nghiên cứu tiếp theo.
Kỹ thuật giấu tin
Trong thời đại công nghệ thông tin phát
triển nhƣ hiện nay, việc trao đổi thông tin
đã trở nên dễ dàng và thuận tiện. Chính
vì thế, bảo mật thông tin là một vấn đề
trở nên cấp thiết và kỹ thuật giấu tin đã ra
đời để đáp ứng đƣợc phần nào nhu cầu
bảo đảm an toàn trao đổi thông tin trên
mạng. Kỹ thuật giấu tin đƣợc biết đến bởi
hai lĩnh vực chủ yếu là Steganography
(giấu tin mật) và Watermarking (thủy ấn).
Steganography là kỹ thuật giấu thông tin
mật vào các dữ liệu truyền thông (văn
bản, ảnh, nhạc, phim, ) để chuyển tải
đến ngƣời nhận mà ngƣời thứ ba không
thể biết đƣợc có sự tồn tại của thông tin
mật trong quá trình truyền. Kỹ thuật
Steganography đã làm thay đổi tƣ duy
trong lĩnh vực bảo mật thông tin bởi tính
khả thi của việc ẩn một lƣợng thông tin
mật trong một dữ liệu thông thƣờng mà
khó bị phát hiện bằng giác quan của con
ngƣời. Bên cạnh đó, Watermarking là kỹ
thuật đƣợc sử dụng chủ yếu trong bảo vệ
bản quyền sản phẩm số bằng cách đƣa
thông tin bản quyền nhƣ tên tác giả, logo,
vào sản phẩm. Với sự tồn tại của thông
tin thủy ấn, nhà sản xuất có thể chứng
minh đƣợc nguồn gốc của sản phẩm khi
sản phẩm bị phát tán không hợp pháp.
Cả hai kỹ thuật này đƣợc sử dụng với
các mục đích khác nhau song chúng đều
có đặc điểm chung là giấu thông tin vào
sản phẩm gốc sao cho không bị phát hiện
bởi ngƣời thứ ba trong quá trình trao đổi
thông tin trên mạng.
Hình 1 mô tả qui trình giấu tin trong các
sản phẩm số và truyền thông tin trên
mạng để đảm bảo tính bảo mật của
thông tin truyền đi [2]. Mô hình này gồm
có 3 giai đoạn thực hiện là giấu tin,
truyền dữ liệu và trích rút thông tin. Trong
đó, embedded data là dữ liệu đƣợc giấu
vào cover-text; stego-text là dữ liệu đã
đƣợc xử lý bới quá trình giấu tin và chứa
nội dung của embedded data;
stegokey là thông tin khóa đƣợc sử dụng
trong quá trình xử lý giấu tin và trích rút
thông tin, stegokey phải đƣợc bảo đảm bí
mật trong suốt quá trình trao đổi thông tin.
Mô hình này đƣợc áp dụng phổ biến cho
hầu hết các dữ liệu thông thƣờng đƣợc
trao đổi trên mạng và nó đã phát huy
đƣợc hiệu quả sử dụng. Tuy nhiên, trong
phạm vi bài báo này, chúng tôi chỉ đề
cập đến vấn đề sử dụng mô hình trong
giấu thông tin mật trên các dữ liệu văn
bản mà trọng tâm là dữ liệu siêu văn bản
HTML đang đƣợc sử dụng rộng rãi trong
lĩnh vực truyền thông đa phƣơng tiện
trên internet.
Hình 1. Mô hình giấu tin trong truyền dữ liệu
PHƢƠNG PHÁP GIẤU TIN TRÊN VĂN
BẢN
Phần này trình bày các kỹ thuật giấu tin
trên văn bản đã đƣợc đề xuất và phân
tích những nhƣợc điểm của các phƣơng
pháp này khi áp dụng cho giấu tin trên dữ
liệu HTML.
Phƣơng pháp từ điển
Phƣơng pháp này không thực hiện xử lý
ký tự văn bản nhƣ định dạng ảnh hay sử
dụng mã font của ký tự để giấu thông tin.
Phƣơng pháp giấu tin từ điển sẽ dựa vào
ý nghĩa của các từ để tạo ra một bản thay
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
thế từ trong văn bản bằng một từ có ý
nghĩa tƣơng tự [3]. Nhƣ vậy, nội dung
văn bản stego-text đƣợc tạo ra sẽ có ý
nghĩa tƣơng tự nhƣ văn bản cover-text
và đồng thời chứa nội dung của
embedded data. Trong phƣơng pháp
này, stegokey chính là bảng từ điển dùng
để thay thế các từ đồng nghĩa trong văn
bản gốc để đƣợc một văn bản tƣơng
đƣơng.
Phƣơng pháp này có thể sử dụng cho
giấu tin trong thông tin của dữ liệu
HTML một cách dễ dàng, song nó bộc
lộ những nhƣợc điểm sau:
- Do một từ hoặc một cụm từ trong văn
bản gốc đƣợc thay thế bởi một từ hay
một cụm từ đã chuẩn bị sẵn trong từ điển
nên nội dung và mạch văn của văn bản
gốc sẽ bị thay đổi khiến cho ý nghĩa của
văn bản không đƣợc rõ nghĩa trong một
số trƣờng hợp.
- Dễ dàng tính toán đƣợc tần suất xuất
hiện của một từ hoặc một cụm từ trong
văn bản stego-text bằng phƣơng pháp
thống kê dẫn đến nội dung văn bản bị
nghi ngờ.
Từ những nhƣợc điểm của phƣơng pháp
giấu tin từ điển, nội dung văn bản stego-
text sẽ có căn cứ để phát hiện nội dung
thông tin mật chứa trong nó. Bởi vậy, tính
bảo mật của phƣơng pháp này không an
toàn cho nội dung dữ liệu mật khi truyền
thông trên internet.
Phƣơng pháp duy trì hiển thị văn bản
Phƣơng pháp này chú trọng đến đặc
trƣng hiển thị văn bản trƣớc và sau khi
xử lý giấu tin. Những biến đổi sau khi đã
giấu tin trên văn bản stego-text hầu nhƣ
không bị phát hiện bởi thị giác của con
ngƣời dù in văn bản trên các máy in có
độ phân giải cao [4][5]. Các phƣơng
pháp giấu tin trong văn bản dạng này
sử dụng chủ yếu các kỹ thuật nhƣ thay
đổi khoảng cách của ký tự, các cụm từ,
các dòng văn bản; biến đổi góc độ của
các ký tự, mật độ điểm ảnh; hay thay
đổi cỡ chữ của văn bản.
Đặc trƣng của phƣơng pháp giấu tin
trong văn bản sử dụng phƣơng pháp duy
trì hiển thị là có khả năng lƣu trữ đƣợc
thông tin mật khi văn bản đƣợc in ấn. Tuy
nhiên, trong một số trƣờng hợp văn bản
điện tử đƣợc hiển thị dƣới một định dạng
khác thì khả năng mất thông tin giấu vào
rất lớn.
Phƣơng pháp này có thể áp dụng cho
giấu tin trong dữ liệu siêu văn bản HTML
nhƣng xét về khả năng tƣơng thích của
các trình duyệt (IE, Firefox, Netscape, )
và một số yếu tố liên quan đến hiển thị
văn bản (font chữ, độ phân giải, ) thì
khả năng bị phát hiện thông tin mật giấu
trong HTML bởi ngƣời sử dụng rất cao.
Phƣơng pháp sử dụng ký tự không
hiển thị
Phần lớn các văn bản có thể sử dụng ký
tự không hiển thị để giấu thông tin trong
văn bản gốc mà không làm thay đổi nội
dung, ý nghĩa và cấu trúc của văn bản
gốc. Phƣơng pháp này tận dụng những
ký tự đặc biệt (ký tự trắng, ký tự xuống
dòng, ) thêm vào văn bản gốc để biểu
diễn thông tin mật [6]. Những ký tự thêm
vào sẽ không hiển thị nên về mặt hiển thị
văn bản sẽ không hề bị thay đổi, tuy
nhiên, từ cấu trúc của văn bản ta có thể
trích rút đƣợc các thông tin mật đƣợc
biểu diễn bởi phƣơng pháp này. Đây
cũng chính là phƣơng pháp đƣợc chú ý
rất nhiều trong gửi thông tin mật trên
internet dƣới dạng gửi một văn bản dữ
liệu thông thƣờng.
Bên cạnh mặt dễ dàng sử dụng và có
hiệu quả, phƣơng pháp này còn bị hạn
chế bởi một số nhƣợc điểm. Nhƣợc điểm
này tồn tại trong kết quả giấu tin là văn
bản stego-text. Khi văn bản stego-text
đƣợc gửi đi trên internet, nội dung văn
bản có thể bị xử lý bởi các thuật toán
chỉnh sửa cấu trúc văn bản để loại bỏ các
ký tự thừa, không có ý nghĩa khiến thông
tin mật có thể bị mất và không thể phục
hồi lại đƣợc.
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chính vì lý do đó, nếu sử dụng phƣơng
pháp này trong giấu tin mật trên văn bản
HTML, thông qua việc hiển thị mã
(source code) của trang Web trên trình
duyệt, ngƣời thứ ba có thể thấy đƣợc sự
“khác thƣờng” trong cấu trúc dữ liệu và
dễ dàng lọc đƣợc thông tin mật bằng
phƣơng pháp phân tích thống kê.
Yêu cầu đối với thuật toán giấu tin
trên văn bản
Từ những phân tích của các phƣơng
pháp giấu tin trên dữ liệu văn bản trƣớc
đây, ta thấy đƣợc những nhƣợc điểm cần
khắc phục để hạn chế đƣợc rủi ro bị phát
hiện thông tin mật bởi ngƣời thứ ba. Vì
vậy, yêu cầu của một thuật toán giấu tin
trên văn bản cần đảm bảo đƣợc những
yêu cầu nhƣ sau:
- Tính đồng nhất: Nội dung và ý nghĩa của
văn bản stego-text sau khi đƣợc xử lý phải
đảm bảo đồng nhất với văn bản gốc cover-
text.
- Tính trong suốt: Khi cấu trúc của văn
bản stego-text đƣợc hiển thị bởi một thao
tác nào đó thì không có những thay đổi
lớn gây nghi ngờ cho ngƣời thứ ba.
- Tính chính xác: Nội dung của thông tin
mật phải đƣợc trích rút chính xác từ
stego-text mà không làm thay đổi đến nội
dung và ý nghĩa của văn bản này.
Với những yêu cầu đặt ra trên, bài báo sẽ
lựa chọn phƣơng pháp giấu tin vào dữ
liệu HTML để đảm bảo tính bảo mật cho
dữ liệu đƣợc giấu vào.
GIẢI PHÁP GIẤU TIN TRÊN HTML
Trong phần này, bài báo phân tích những
đặc trƣng của dữ liệu định dạng siêu văn
bản HTML và chỉ ra những yếu tố có thể
thay đổi trong cấu trúc định dạng dữ liệu
mà không làm thay đổi thông tin hiển thị.
Đặc trƣng của HTML
HTML là một dạng văn bản có cấu trúc
và đƣợc cấu thành từ các thành phần
văn bản khác nhau bởi các thẻ đƣợc định
nghĩa sẵn. Trong dữ liệu định dạng
HTML bao gồm nội dung thông tin
(content), cấu trúc dữ liệu (structure:
tags, distributes) và định dạng văn bản
(style: css). Trên thực tế, dữ liệu HTML là
tổ hợp của nhiều dạng dữ liệu văn bản
khác nhau để hiển thị thành trang Web và
đƣợc gọi là văn bản HTML.
Thông thƣờng, một trang Web đƣợc hiển
thị trên trình duyệt Web chỉ hiển thị nội
dung thông tin của trang Web mà không
hiển thị cấu trúc dữ liệu và định dạng văn
bản. Bởi vậy, ngƣời sử dụng thông
thƣờng chỉ đọc đƣợc các nội dung trên
trang Web do máy chủ quản lý trang Web
gửi đến. Chính đặc trƣng này của định
dang HTLM có thể đƣợc khai thác để giấu
thông tin trong các trang Web đƣợc
truyền tải trên internet mà không làm ảnh
hƣởng đến nội dung chính của trang Web.
Bài báo sẽ đƣa ra phƣơng pháp sử dụng
các cấu trúc của trang Web để giấu thông
tin nhƣ các thẻ, các thuộc tính của các đối
tƣợng (hình ảnh, âm thanh, link, bảng biểu,
) trên trang Web
Sử dụng thẻ cấu trúc trong giấu tin
Ngôn ngữ định dạng siêu văn bản HTML
có rất nhiều thẻ đƣợc định nghĩa để xây
dựng cấu trúc của trang Web. Trong đó
có 2 loại thẻ cơ bản đƣợc sử dụng chính:
thẻ cấu trúc bắt buộc gồm có 2 loại thẻ là
thẻ mở (Open Tag: OT) và thẻ đóng
(Close Tag: CT); thẻ cấu trúc chỉ sử dụng
một thẻ (ONce Tag: NT) hoặc có thể sử
dụng cả hai thẻ nhƣ trên để biểu diễn dữ
liệu. Khi biểu diễn thông tin trên định
dạng siêu văn bản, việc sử dụng linh hoạt
thẻ cấu trúc trong giấu thông tin
embedded data bằng stegokey sẽ không
làm thay đổi hiển thị nội dung của trang
Web trên trình duyệt Web thông thƣờng.
Bảng 1 là một số thẻ cấu trúc có thể sử
dụng để biểu diễn thông tin bằng 2 thẻ
hay chỉ bằng 1 thẻ.
Bảng 1. Một số thẻ có thể sử dụng trong giấu
tin
Tên thẻ Sử dụng OT và Sử dụng
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
CT NT
Ví dụ, hình 2 mô tả việc sử dụng thẻ
trong văn bản gốc cover-text để
giấu thông tin. Phƣơng pháp này sẽ sử
dụng thẻ hoặc thẻ để giấu
thông tin 1 bit vào văn bản mà không làm
ảnh hƣởng đến hiển thị của hình ảnh trên
trang Web.
Hình 2. Ví dụ về giấu tin bằng thẻ
Sử dụng thuộc tính của thẻ trong giấu
tin
Việc sử dụng cấu trúc của thẻ để giấu tin
nhƣ trong 4.2 về mặt hiển thị nội dung
trên các trình duyệt Web là hoàn toàn
giống nhau và không bị phát hiện bởi thị
giác của con ngƣời. Tuy nhiên, mỗi cấu
trúc thẻ chỉ có thể biểu diễn đƣợc 2 bits
thông tin nên dung lƣợng thông tin ẩn
đƣợc giấu vào một trang Web còn có
nhiều hạn chế. Ta nhận thấy mỗi một thẻ
cấu trúc còn có kèm theo rất nhiều các
thuộc tính hỗ trợ hiển thị thông tin. Nếu
sử dụng các thuộc tính của thẻ trong biểu
diễn thông tin bởi thứ tự xuất hiện của
từng thuộc tính thì ta sẽ cải thiện đƣợc
dung lƣợng thông tin mật giấu vào trong
trang Web là đáng kể. Bảng 2 là một số
thẻ và thuộc tính thông dụng đƣợc dùng
trong văn bản HTML.
Bảng 2. Một số thẻ và thuộc tính thông dụng
Tên thẻ Thuộc tính
id, src, width, height, align, border,
hspace, vspace, usemap, alt
id, lang, title, type, media, dir,
xml:lang,
id, lang, style, class, title, dir, align,
id, lang, size, face, color, class,
style, title,
Ta thấy rằng, khi sử dụng các thuộc tính
của thẻ để tạo đối tƣợng trong văn bản
HTML thì việc thay đổi thứ tự của các
thuộc tính không làm ảnh hƣởng đến
hiển thị của đối tƣợng trong văn bản. Ví
dụ, khi sử dụng thẻ để hiển thị
hình ảnh ta có thể viết cấu trúc của thẻ
nhƣ trong hình 3. Trong ví dụ này,
các thuộc tính của thẻ nhƣ id, src, width,
height đƣợc sử dụng trong hình 3(a), 3(b)
với thứ tự khác nhau. Tuy nhiên, khi
trang Web đƣợc hiển thị trên trình duyệt
Web thì hình ảnh và dung lƣợng của văn
bản HTML cũng không bị thay đổi so với
văn bản gốc. Nhƣ vậy, với phƣơng pháp
thay đổi thứ tự các thuộc tính của một thẻ
cấu trúc, ta có thể giấu đƣợc nhiều bit
thông tin mật vào văn bản HTML. Chính
thứ tự các thuộc tính của một thẻ cấu trúc
không làm ảnh hƣởng đến hiển thị của văn
bản gốc trên trình duyệt nên có thể sử
dụng để giấu tin trên các trang Web truyền
tải trên internet.
Hình 3. Ví dụ về tuần tự thuộc tính của thẻ
Trong trƣờng hợp sử dụng các thuộc tính
của thẻ cấu trúc để giấu thông tin, giả sử
thẻ có n thuộc tính đƣợc dùng trong văn
bản, khi đó thứ tự sắp xếp của các thuộc
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
tính sẽ có là n! cách. Nhƣ vậy, lƣợng
thông tin có thể giấu đƣợc trong một
trƣờng hợp sắp xếp các thuộc tính là
2log ( !)n [bits]
Kết hợp thẻ và thuộc tính trong giấu
tin bền vững
Phƣơng pháp tổ hợp thẻ và thuộc tính
giúp cho khả năng tăng dung lƣợng
thông tin mật đƣợc giấu vào một văn bản
HTML. Bên cạnh việc tăng lƣợng thông
tin mật, bài báo sẽ phân tích khả năng
bền vững của thông tin mật khi bị phân
tích dữ liệu. Phƣơng pháp tổ hợp thẻ và
thuộc tính sẽ giúp việc trao đổi thông tin
mật trên mạng internet có hiệu quả và có
khả năng tránh đƣợc mất mát thông tin
trong quá trình truyền dữ liệu.
KỸ THUẬT GIẤU TIN BẰNG PHƢƠNG
PHÁP TỔ HỢP THẺ VÀ THUỘC TÍNH
Thuật toán giấu tin
Thuật toán giấu tin trong văn bản HTML
gồm 4 bƣớc đƣợc mô tả trong hình 4.
Hình 4. Phƣơng pháo tổ hợp thẻ và thuộc
tính
Step 1. Xác định đối tƣợng thẻ: chọn thẻ để
tạo stegokey. Thuật toán chọn các thẻ cấu
trúc có khả năng sử dụng hai trƣờng hợp
OT/CT và NT trong cấu trúc văn bản HTML.
Step 2. Tạo bảng stegokey: trên cơ sở
chọn thẻ trong Step 1, thuật toán chọn
một số thuộc tính của thẻ để tạo thành
bảng stegokey và xác định chuỗi bits
thông tin đƣợc giấu vào mỗi trƣờng hợp.
Step 3. Chỉnh thuộc tính: trong văn bản
gốc, khi xuất hiện các thẻ trong stegokey,
thuật toán sẽ kiểm tra các thuộc tính để
chỉnh sửa các thuộc tính sao cho có đầy
đủ các thuộc tính trong stegokey.
Step 4. So sánh stegokey để thay thế các
thẻ và thuộc tính của thẻ trong cấu trúc
văn bản HTML. Trong bƣớc này, thuật
toán sẽ trích các bit thông tin mật trong
embeddeb data để so sánh với stegokey
và xác định đƣợc thứ tự các thuộc tính
trong thẻ cấu trúc.
Nhƣ vậy, văn bản HTML sau khi đƣợc xử
lý sẽ đƣợc thay đổi thẻ cấu trúc và trật tự
của các thuộc tính của nó bởi stegokey.
Tuy nhiên, nội dung của trang Web sẽ
không hề bị thay đổi mà vẫn có thể chứa
đƣợc một lƣợng thông tin mật trong cấu
trúc văn bản.
Quá trình trích rút thông tin mật sẽ sử
dụng stegokey để trích ra các chuỗi bits
đã giấu vào trong cấu trúc của văn bản
HTML trong mỗi trƣờng hợp của thẻ và
trật tự của các thuộc tính.
Đặc trƣng của thuật toán
Thuật toán có đặc trƣng chính là bảng
stegokey đƣợc xây dựng trên cơ sở chọn
thẻ cấu trúc một cách linh hoạt. Giả sử,
trong bài báo sử dụng thẻ và các
thuộc tính id, src, width, height làm
stegokey, khi đó, bảng stegokey đƣợc
sinh ra nhƣ bảng 3.
Bảng 3. Bảng stegokey dùng thực nghiệm
trong thuật toán
Embedd
ed bits
Tag Attributes
0
0000
OT/CT
id scr width height
1 NT
0
0001
OT/CT
id scr height width
1 NT
0
0010
OT/CT
id width src height
1 NT
0
0011
OT/CT
id width height src
1 NT
0 0100 OT/CT id height width src
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1 NT
0
0101
OT/CT
id height src width
1 NT
0
0110
OT/CT
src id height width
1 NT
0
0111
OT/CT
src id width height
1 NT
0
1000
OT/CT
src width id height
1 NT
0
1001
OT/CT
src width height id
1 NT
0
1010
OT/CT
src height id width
1 NT
0
1011
OT/CT
src height width id
1 NT
0
1100
OT/CT widt
h
id src height
1 NT
0
1101
OT/CT widt
h
id height src
1 NT
0
1110
OT/CT widt
h
src id height
1 NT
0
1111
OT/CT widt
h
src height id
1 NT
unus
ed
Unused
widt
h
height id src
unus
ed
unused
heig
ht
id src width
Bảng stegokey sẽ xây dựng tất cả các
tuần tự xuất hiện của thuộc tính thẻ và
cấu trúc của thẻ trong văn bản HTML;
đồng thời, chỉ ra chuỗi bits đƣợc giấu vào
trong mỗi tổ hợp của thẻ và thuộc tính.
Trạng thái ban đầu của tổ hợp thẻ và
thuộc tính sẽ đƣợc dùng để giấu thông
tin chuỗi bit “00000”. Các tổ hợp “unused”
sẽ không đƣợc sử dụng trong giấu tin
trong văn bản stego-text.
Với bảng stegokey trong bảng 3, nếu
thông tin trích rút từ embedded data là
“10101” thì thẻ đƣợc cấy vào trong
văn bản stego-text là:
Hình 5. Ví dụ về thẻ và thuộc tính đƣợc sinh
ra bởi bảng 3
Khả năng giấu tin
Giả sử với mỗi thẻ đƣợc chọn ra để giấu
tin, ta chọn n thuộc tính để tạo bảng
stegokey. Trong n! tổ hợp của thuộc tính
này, chọn 2
log ( !)
2
n
cách sắp xếp để giấu tin
trong văn bản. Nhƣ vậy, mỗi cách sắp
xếp của thẻ và thuộc tính sẽ giấu đƣợc
2log ( !)n +1 [bits].
Nếu trong văn bản gốc có số lần xuất
hiện của thẻ đƣợc chọn làm stegokey là
N lần, thì tổng dung lƣợng thông tin mật
đƣợc giấu vào stego-text là
2(log ( !) 1)N n [bits].
Độ bền vững của tin mật
Điểm quyết định để tạo stegokey là tuần
tự xuất hiện của thuộc tính thẻ trong văn
bản gốc. Tuần tự này sẽ quyết định chuỗi
bit giấu đầu tiên là “0000”. Chính đặc
điểm này sẽ quyết định độ bền vững của
tin giấu bởi xác suất của tổ hợp cho
thuộc tính trong văn bản gốc là rất lớn.
Nếu thẻ có n thuộc tính thì khả năng tuần
tự của thuộc tính trong văn bản gốc sẽ là
n! cách sắp xếp. Chỉ khi nào xác định
đƣợc tuần tự của các thuộc tính trong
văn bản gốc mới có khả năng trích rút
đƣợc thông tin mật trong stego-text.
Mặt khác, trong bảng stegokey, không
phải tất cả các tổ hợp của thuộc tính đều
đƣợc sử dụng để giấu tin. (n! -
2log ( !)2
n
) tổ hợp còn lại (đƣợc đánh dấu
bởi “unused” trong bảng 3) sẽ là những
xác suất gây khó khăn cho việc tấn công
phân tích dữ liệu mật trong stego-text.
KẾT LUẬN
Bài báo trình bày một thuật toán sử dụng tổ
hợp thẻ và thuộc tính của thẻ trong cấu trúc
siêu văn bản để biểu diễn thông tin mật. Với
việc thay đổi tuần tự của thuộc tính trong
thẻ, văn bản giấu tin không bị ảnh hƣởng về
nội dung hiển thị trong trình duyệt mà cấu
trúc của văn bản cũng không xáo trộn đáng
kể. Mặt khác, do số lƣợng thuộc tính của
thẻ lớn nên số lƣợng tổ hợp đƣợc tạo ra
tƣơng đối lớn dẫn đến độ phức tạp trong
quá trình thám mã thông tin mật.
Bài báo đã xây dựng thực nghiệm bảng
stegokey để tiến hành giấu thông tin trong
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
các trang VNExpress.net, Yahoo.com,
Google.com. Bằng phƣơng pháp này, tác
giả sẽ phát triển nghiên cứu để giấu thông
tin trong các văn bản eXtensible Markup
Language (XML).
TÀI LIỆU THAM KHẢO
[1].
[2]. B. Pfitzman, Information Hiding
Terminology, Information Hiding First
International Workshop, LNCS(1174),
Springer, 1996, pp.347-350.
[3]. Nakagawa Hiroshi, Kimura Hiroyasu,
Sampei Koji, Information Hiding for Japanese
Text Based on Replacing Words with
Dictionary, Information Processing Society of
Japan (IPSJ), Vol. 41, No.8, 2000, pp. 2272 -
2281.
[4]. Nakamura Yasuhiro, Matsui Kineo, Digital
Wartermarking onto Japanese Documents by
Seal Image, Information Processing Society
of Japan (IPSJ), Vol. 38, No.11, 1997, pp.
2356 - 2362.
[5]. T. Nakagawa, S. Taki, S. Sinoue, Special
Features: Information Hiding, Information
Processing Society of Japan (IPSJ), Vol. 44,
No.3, 2003, pp. 248 - 253.
[6]. The SNOW Home Page,
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
SUMMARY
THE CONSIDERATION OF COMBINATION TAGS AND ATTRIBUTES
FOR INFORMATION HIDING ON HTML DOCUMENTS
Ta Minh Thanh, Nguyen Hieu Minh
Faculty of Informaiton Technology, Le Quy Don Technical University
Article proposed a scheme for information hiding on hypertext HTML format. Methods sort by
order of the tags and attributes of the tag in the hypertext format and methods of the article only
change the structure of the text information hidden without affecting the content of the text. On
technical aspects, allowing flexibility to change the structure of the text format will create
advantages in performing information security without causing changes to the text is too big to
hide information.
Keywords:Information Hiding, HTML Documents, steganography.
Ta Minh Thanh, Email: taminhjp@gmail.com
Các file đính kèm theo tài liệu này:
- brief_1949_9649_ta_minh_thanh_4951_2052990.pdf