Bài báo nghiên cứu về bốn mô hình khác nhau
của xử lý giá trị thiếu. Khi áp dụng khai phá dữ
liệu vào thế giới thực, việc nghiên cứu từ một
tập dữ liệu không đầy đủ là một điều không thể
tránh được. Cần có các giải pháp để xử lý các
giá trị thiếu. Tuy nhiên các kỹ thuật để dự đoán
các giá trị thiếu cần phải không chứa nhiễu. Hai
thí nghiệm được đưa ra để kiểm tra hiệu quả của
các chiến lược thay thế dữ liệu khác nhau bằng tỷ
lệ che phủ, số lượng luật, số lượng reduct được tạo
ra từ mỗi tập dữ liệu. Tỷ lệ phần trăm che phủ là
tốt nhất với mô hình 3 với tập dữ liệu HSV. Nó là
tốt nhất ở mô hình 4 với tập dữ liệu heart disease.
Điều này cho thấy các tập dữ liệu khác nhau có thể
cần sử dụng các mô hình khác nhau để thu được
kết quả tốt nhất. Điền đầy các giá trị thiếu là một
điều phức tạp và cần nghiên cứu cẩn thận. Kết quả
thí nghiệm cho thấy mô hình tốt nhất tạo ra số
lượng lớp luật nhỏ nhất là mô hình bỏ đi các mẫu
chứa giá trị thiếu mà không chú ý tới kích thước
tập dữ liệu.
Nếu ưu tiên số lượng reduct nhỏ nhất thì mô hình
tốt nhất cũng là mô hình bỏ đi các mẫu chứa giá trị
thiếu. Và nếu ưu tiên dựa vào số lượng lớn nhất các
reduct, thì thay thế các giá trị thiếu bằng hằng toàn
cục “missing” là lựa chọn tốt nhất. Nghiên cứu này
kết luận rằng mô hình tốt nhất để xử lý các giá trị
thiếu là phụ thuộc vào nhiệm vụ thực hiện như hai
trường hợp nghiên cứu trong bài báo này.
6 trang |
Chia sẻ: thucuc2301 | Lượt xem: 893 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xử lý dữ liệu thiếu trong khai phá dữ liệu - Phùng Thị Thu Hiền, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55
XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU
Phùng Thị Thu Hiền1*, Phùng Trung Nghĩa2 ,Đoàn Xuân Ngọc3
1Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên
2Japan Advanced Institute of Science and Technology, 3Cục Thuế tỉnh Thái Nguyên
TÓM TẮT
Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên
cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong
nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu
đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng.
Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự
mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra:
- Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu.
- Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu.
- Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu.
Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri
thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của
dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là
thảo luận về kết quả, so sánh và đƣa ra kết luận.
Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data).
ĐẶT VẤN ĐỀ
Sự gia tăng của kích thƣớc dữ liệu và số
lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả
năng của con ngƣời để phân tích dữ liệu, do
vậy vấn đề quan trọng là cần rút ra tri thức từ
các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa
lƣợng thông tin lớn về bệnh nhân và điều kiện
Y tế của họ. Những mối quan hệ và những mô
hình bên trong dữ liệu này đã có thể cung cấp
tri thức y học mới. Phân tích dữ liệu y tế
thƣờng liên quan đến cách xử lý của tri thức
không đầy đủ, với việc quản lý các phần
thông tin trái ngƣợc nhau và với các mức độ
khác nhau của dữ liệu. Các kỹ thuật để phân
tích dữ liệu chính hiện nay dựa trên các giả
định khá mạnh (một vài tri thức về sự phụ
thuộc, xác suất phân loại, các cuộc thử
nghiệm), không thể thu đƣợc các kết luận từ
tri thức không đầy đủ, hoặc không thể quản lý
các mẩu thông tin trái ngƣợc nhau. Hầu hết
các kỹ thuật thông minh sử dụng trong các
phép phân tích dữ liệu y tế là sử dụng mạng
neura, phân lớp Bayessian, các thuật toán di
truyền, cây quyết định, lý thuyết mờ. Nghiên
Tel: 0986 060545, Email: pthientng@gmail.com
cứu về khai phá dữ liệu giúp phân tích dữ liệu
và khám phá tri thức mới. Mục tiêu là tạo ra
một mô hình đơn giản. Các kiến thức khám
phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế
trong y học, thiên văn học, thị trƣờng chứng
khoán và nhiều lĩnh vực khác. Các dữ liệu thu
đƣợc cho thấy thực tế không kiểm soát đƣợc
mọi thứ, do sự chồng lấp và nhiều phần giống
nhau cùng tồn tại. Các mô hình có độ bất
định: Nếu A thì B với độ bất định C. Có nhiều
phƣơng pháp để thu đƣợc các mô hình nhƣ đã
đề xuất, bao gồm Gaines và Shaw trong [2],
Quinlan trong [3], Clark và Niblet trong [4],
Pawlak trong [6].
Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý
giá trị thiếu, phân tích, so sánh ƣu nhƣợc
điểm của các phƣơng pháp.
PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU
GIÁ TRỊ
Một vấn đề phổ biến, thách thức trong khai
phá dữ liệu và nghiên cứu khám phá tri thức
là độ nhiễu của dữ liệu [5]. Trong một cơ sở
dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có
thể không chính xác hoặc có lỗi. Điều này có
thể do lỗi dụng cụ đo không chuẩn hoặc do
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 56
con ngƣời khi nhập dữ liệu. Có hai dạng cơ
bản đƣợc mô tả dƣới đây:
Các giá trị không chính xác
Đôi khi một vài giá trị trong quá trình huấn
luyện bị thay đổi. Điều này có thể do một
hoặc nhiều bộ dữ liệu mâu thuẫn với các luật
đã đƣợc thiết lập. Hệ thống này có thể liên
quan đến các giá trị nhiễu và bỏ qua chúng.
Vấn đề là không bao giờ biết đƣợc các giá trị
nhiễu là chính xác hay không và thách thức là
làm thế nào để xử lý các giá trị không bình
thƣờng một cách tốt nhất.
Các giá trị bị thiếu
Một hoặc nhiều giá trị có thể bị thiếu trong
quá trình huấn luyện và phân lớp. Dữ liệu
thiếu có thể xảy ra do không thể lƣu lại khi
mà dữ liệu đã đƣợc tập hợp, hoặc bị bỏ qua
do ngƣời sử dụng. Nếu các thuộc tính bị thiếu
trong quá trình huấn luyện, hệ thống cũng có
thể bỏ qua đối tƣợng hoàn toàn, cố gắng đƣa
nó vào quá trình tính toán, ví dụ tìm những
thuộc tính thiếu nhiều nhất, hoặc sử dụng giá
trị thiếu “missing”, chƣa biết “unknown”,
hoặc “null” nhƣ là một giá trị riêng cho thuộc
tính này. Giải pháp đơn giản nhất là loại bỏ đi
các giá trị dữ liệu bị thiếu. Một giải pháp khó
hơn là cố gắng xác định các giá trị thiếu này.
CÁC PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU
- Bỏ qua bộ dữ liệu: cách này thƣờng đƣợc
thực hiện khi thiếu nhãn lớp hoặc bộ dữ liệu
chứa nhiều thuộc tính có các giá trị thiếu.
- Sử dụng một hằng số chung: Thay thế tất cả
các giá trị thiếu bởi một hằng nhƣ là
“missing”, “unknown”, “_”, “?”
- Sử dụng thuộc tính trung bình: Sử dụng
thuộc tính trung bình cho tất cả các mẫu trong
lớp giống nhau: ví dụ, nếu phân loại khách
hàng theo credit_risk (bảo hiểm tín dụng),
thay thế các giá trị thiếu bằng giá trị trung
bình của các khách hàng trong cùng một loại
credit risk.
- Sử dụng các giá trị có tần xuất xuất hiện
nhiều nhất: kỹ thuật này thích hợp khi các giá
trị thiếu ít. Khó khăn xuất hiện nếu bộ dữ liệu
chứa nhiều hơn một giá trị thuộc tính thiếu.
CÁC THUẬT TOÁN XỬ LÝ
Trƣớc tiên ta cần loại bỏ nhiễu ở dữ liệu gốc,
loại bỏ tất cả các bộ dữ liệu có cùng các thuộc
tính điều kiện và khác nhau về thuộc tính
phân lớp. Điều này giúp nâng cao hiệu quả,
giúp loại bỏ tất cả các trƣờng hợp nghi ngờ.
Tiến hành thiết kế các cuộc thử nghiệm để
kiểm tra lại mô hình nào tốt nhất để thay thế
các giá trị thiếu, tạo ra phạm vi hoạt động cao
nhất của bộ dữ liệu. Coverage mô tả tỷ lệ
phân lớp đối tƣợng. Sử dụng nhiều luật phân
lớp sẽ tốn thời gian, cho nên cần giảm số
lƣợng luật phân lớp. Một số thử nghiệm của
hệ thống sử dụng hệ thống RSES – Rough Set
Exploration System. HSV và tập dữ liệu heart
disease đƣợc lấy từ kho dữ liệu UCI. Cả hai
tập dữ liệu không chứa dữ liệu thiếu. Tập dữ
liệu HSV chứa 122 bộ dữ liệu trong khi tập
dữ liệu heart disease có 270 bộ dữ liệu. Để tạo
dữ liệu thiếu, ta xóa một vài giá trị từ tập dữ
liệu gốc. Tập dữ liệu HSV mới có 63 bộ dữ
liệu với các giá trị thiếu biến đổi từ 1 tới 9 giá
trị thiếu. Tập dữ liệu heart disease mới chứa
81 bộ dữ liệu thiếu với các giá trị biến đổi
giữa 1 và 2 giá trị thiếu. Bốn tập dữ liệu khác
đƣợc ra từ mỗi tập dữ liệu gốc. Mỗi tập dữ
liệu đƣợc mô tả nhƣ sau:
DS1: Thay thế các giá trị thiếu bằng hằng
“Missing” . Quá trình thay thế đƣợc thực hiện
qua mô hình 1 đƣợc mô tả bằng thuật toán 1.
Hằng chung “missing” miêu tả các giá trị
chƣa biết trong tập dữ liệu.
Thuật toán 1
Dự đoán các giá trị thiếu
Thừa nhận bảng quyết định T = (U,C,D,V).
Với mỗi thuộc tính chứa dữ liệu thiếu thực
hiện thay thế dữ liệu thiếu bằng giá trị
“Missing”
Kết thúc.
T là tập dữ liệu không có các giá trị thiếu
Độ phức tạp của thuật toán là O(n) nên đây là
thuật toán đơn giản.
DS2: Thay thế các giá trị thiếu bằng các giá
trị trung bình trong tập dữ liệu. Quá trình thay
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 57
thế đƣợc thực hiện qua mô hình 2,3 với thuật
toán 2, 3
Thuật toán 2
Dự đoán các giá trị thiếu
Thừa nhận bảng quyết định T=(U,C,D,V)
Với mỗi thuộc tính có chứa dữ liệu thiếu thực
hiện
Tìm giá trị trung bình X
Thay thế dữ liệu thiếu bằng giá trị trung bình
Kết thúc
T là tập dữ liệu không chứa giá trị thiếu
Độ phức tạp của thuật toán là O(n) nên nó
cũng là thuật toán đơn giản.
Thuật toán 3
Dự đoán các giá trị thiếu
Chấp nhận bảng quyết định T=(U,C,D,V).
Chia bảng quyết định theo chiều ngang thành
các tập con: T1=(U1,C,D1,V),
T2=(U2,C,D2,V), , Tn=(Un,C,Dn,V) với
U=(U1,U2,,Un) và D=(D1,D2, , và Dn).
Với mỗi tập con thực hiện
Với mỗi thuộc tính có chứa dữ liệu thiếu
Thực hiện
Tìm giá trị trung bình X
Thay thế giá trị thiếu bằng giá trị trung bình
Kết thúc 1
Kết thúc 2
T1, T2, , Tn là tập con không chứa giá trị
thiếu.
Độ phức tạp của thuật toán là O(n2) nên nó
tốn thời gian hơn để hoàn thành.
Hình 1. Mô hình 3
Hình 2. Mô hình dự đoán giá trị thiếu và kiểm tra
bằng việc sử dụng các nhân tố khác. DS là viết tắt
của Data Set và M viết tắt của Model
Bảng 1. Số lƣợng luật, số lƣợng reducts, và độ che
phủ của tập dữ liệu HSV, N mô tả số lƣợng mẫu
ban đầu.
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 58
Tên tập
dữ liệu
Tỷ lệ
bao phủ
(%)
Số
lượng
luật
Số
lượng
reducts
HSV1 73 1070 78
HSV2 93.4 1400 57
HSV3 95.1 1332 41
HSV4 93.7 707 39
Bảng 2. Số lƣợng luật, số lƣợng reduct và độ che
phủ của tập dữ liệu Heart Disease, N miêu tả số
lƣợng mẫu ban đầu
Tên tập dữ
liệu
Tỷ lệ
bao phủ
(%)
Số
lượng
luật
Số
lượng
reducts
Heart_Disease1 93 4803 109
Heart_Disease2 97 5189 89
Heart_Disease3 96.7 5009 91
Heart_Disease4 98.4 3173 86
DS4:Mô tả tập dữ liệu mà bỏ đi tất cả các
mẫu chứa các giá trị thiếu. Quá trình loại bỏ
đƣợc thực hiện qua mô hình 4 với thuật toán 4
Thuật toán 4
Dự đoán các giá trị thiếu
Thừa nhận bảng quyết định T=(U,C,D,V)
Lặp : Với mỗi bộ dữ liệu thiếu xóa bộ dữ liệu
đó
Kết thúc.
T là tập dữ liệu không có giá trị thiếu.
Độ phức tạp của thuật toán là O(n) nên nó là
thuật toán đơn giản.
Sau khi thay thế, kiểm tra lại độ mâu thuẫn một
lần nữa. Các giá trị mới thay thế có thể là
nguyên nhân gây mâu thuẫn do nó không phải
là một quá trình hoàn chỉnh. Bỏ qua tất cả các
bộ dữ liệu có thuộc tính dự đoán giống nhau và
các thuộc tính dự đoán khác nhau. Điều này có
thể làm giảm quá trình huấn luyện mẫu dữ liệu
nhƣng độ chính xác kết quả huấn luyện sẽ tăng
lên. Sự thật là quá trình huấn luyện tập dữ liệu
đã giảm thiểu sai sót sẽ cho kết quả tốt hơn
trƣờng hợp tập dữ liệu có nhiều sai sót. Điều
này đƣợc mô tả trong hình 2, nó mô tả tất cả các
bƣớc dự đoán, bỏ đi giá trị lỗi. Việc kiểm tra mô
hình thực hiện bằng 3 nhân tố trong hình 2.
ĐÁNH GIÁ
Bàng 1 và 2 tóm tắt lại số lƣợng các luật, sự
thay đổi và tỷ lệ che phủ. Đƣợc tạo ra từ một
trong bốn mô hình đã đƣợc thiết kế trƣớc đó.
So sánh đầu tiên là thực hiện theo thứ tự để
xác định mô hình nào là tốt nhất, cho độ che
phủ cao nhất. Với tập dữ liệu HSV, tỷ lệ che
phủ là cao nhƣ trong mô hình 3, 95.1%. mô
hình 4 đƣa ra kết quả tiếp theo, 93.7 %. Ở vị
trí thứ 3, mô hình 2 cho tỷ lệ che phủ là
93.4%. Mô hình kém nhất là mô hình 1, cho
tỷ lệ che phủ là 73%.
Khi sử dụng tập dữ liệu heat disease, tỷ lệ che
phủ của mô hình 1, 2, 3 ,4 là 93, 97, 96.7,
98.4%. Tỷ lệ che phủ tốt nhất là tại mô hình
4, mô hình bỏ đi tất cả các bộ dữ liệu thiếu.
Mô hình tồi nhất là mô hình sử dụng hằng
toàn cục “missing”. Mô hình 3 đứng thứ 3,
mô hình 2 đứng vị trí thứ 2. Kết luận cuối
cùng là mô hình 1 có độ che phủ kém nhất
trong cả hai tập dữ liệu: HSV và heat disease.
Các mô hình khác cho kết quả không ổn định
và các kết quả là gần giống nhau. Điều này có
thể kết luận rằng không có mô hình nào là tốt
nhất để giải quyết vấn đề các giá trị thiếu đối
với mọi tập dữ liệu. Việc chọn lựa một mô
hình thích hợp cho tập dữ liệu phụ thuộc vào
tập dữ liệu mà chúng ta muốn nghiên cứu.
Với tập dữ liệu HSV nên dùng mô hình thứ 3
để phân lớp. Với tập dữ liệu heart disease nên
dùng mô hình thứ 4.
Trong hai thí nghiệm và 4 mô hình, mô hình 4
cho số lƣợng luật phân loại nhỏ nhất (707).
Tức là mô hình này là tốt nhất trong 4 mô
hình. Mô hình tốt thứ 2 là mô hình 1, tạo ra
1070 luật. Mô hình 3 đứng thứ 3 với 1332
luật. Cuối cùng là mô hình 2 với 1400 luật.
So sánh thứ 3 tập trung vào số lƣợng reduct
mà mỗi mô hình tạo ra. Có hai điểm khác
nhau. Thứ nhất, một lƣợng lớn reduct đƣợc
tạo ra là đƣợc ƣa thích nhất bởi vì một
lƣợng lớn reduct sẽ cho một miền reduct
rộng để sử dụng. Sự khác nhau của các
reducts giúp ngƣời sử dụng chọn lựa reduct
tốt nhất. Nếu đây là trƣờng hợp, mô hình 1
là mô hình tốt nhất trong cả hai lần thí
nghiệm và nó tạo ra 78 reduct từ tập dữ liệu
HSV và 109 từ tập dữ liệu heat disease. Mô
hình 3 là sự lựa chọn tốt thứ 2 cho tập dữ
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 59
liệu heat disease và tạo ra 91 reduct. Mô
hình 2 là sự lựa chọn tốt thứ 2 cho tập dữ
liệu HSV và tạo ra 57 reduct. Vị trí thứ 3
trong tập dữ liệu heat disease là sử dụng mô
hình thứ 2, tạo ra 89 reducts. Vị trí thứ 3
với tập HSV là mô hình 3, tạo ra 41 reduct.
Lựa chọn cuối cùng của cả hai tập dữ liệu là
mô hình 4, tạo ra 39 reducts từ tập dữ liệu
HSV và 86 reduct từ tập dữ liệu heart
disease. Mô hình 4 đƣợc ƣu tiên cuối cùng
vì lý do kích cỡ mới của tập dữ liệu này.
Sau khi xóa đi tất cả các mẫu có chứa giá trị
thiếu, tập dữ liệu sẽ có kích cỡ nhỏ hơn và
điều này có thể ảnh hƣởng đến nhiều mối
quan hệ trong tập dữ liệu đặc biệt là nếu
nhiều mẫu liên quan bị xóa.
Điểm thứ hai cần xem xét là mô hình tốt nhất
là mô hình tạo ra số lƣợng reduct nhỏ hơn.
Với quan điểm xem xét rằng thời gian là một
yếu tố quan trọng. Thời gian tính toán của
việc tạo ra reduct đƣợc giảm thiểu. Nói cách
khác, số lƣợng tính toán và so sánh trong tập
dữ liệu đƣợc giảm thiểu.
Hình 3. Mối quan hệ của bốn loại của tập dữ liệu
và tỷ lệ che phủ
Hình 4. Mối quan hệ giữa bốn loại của tập dữ liệu
và số lƣợng luật đƣợc tạo ra
Hình 5. Mối quan hệ giữa bốn loại của tập dữ liệu
và số lƣợng reduct đƣợc tạo ra
Kết quả của điều này ngƣợc với điểm đã xem
xét đầu tiên. Mô hình 4 là tốt nhất trong cả hai
tập dữ liệu, tiếp theo là mô hình 2 của tập dữ
liệu heart disease và mô hình 3 của tập dữ liệu
HSV. Đứng thứ 3 là mô hình thứ 3 của tập dữ
liệu heart disease, và là mô hình 2 với tập dữ
liệu HSV. Lựa chọn cuối cùng là mô hình thứ
nhất với cả hai tập dữ liệu HSV và heart
disease. Mối quan hệ giữa các tập dữ liệu
khác nhau và sự ƣớc lƣợng các nhân tố đƣợc
thể hiện trong hình 3 – 5. Hình 3 thể hiện mối
quan hệ giữa các tập dữ liệu và tỷ lệ phần
trăm che phủ. Hình 4 thể hiện mối quan hệ
giữa các tập dữ liệu khác nhau và số lƣợng
các luật đƣợc tạo ra từ mỗi tập. Hình 5 thể
hiện mối quan hệ giữa bốn loại khác nhau
của tập dữ liệu và số lƣợng các reduct.
Đƣờng nằm trên mô tả tập dữ liệu heart
disease trong khi đƣờng nằm dƣới mô tả tập
dữ liệu HSV. Khoảng cách giữa các đƣờng
hoặc khoảng cách giữa các điểm tƣơng ứng
trên đƣờng mô tả sự khác nhau của các giá
trị đo đƣợc giữa các nhân tố khác nhau, tỷ lệ
che phủ ở hình 3, số lƣợng luật ở hình 4, số
lƣợng reduct ở hình 5.
KẾT LUẬN
Bài báo nghiên cứu về bốn mô hình khác nhau
của xử lý giá trị thiếu. Khi áp dụng khai phá dữ
liệu vào thế giới thực, việc nghiên cứu từ một
tập dữ liệu không đầy đủ là một điều không thể
tránh đƣợc. Cần có các giải pháp để xử lý các
giá trị thiếu. Tuy nhiên các kỹ thuật để dự đoán
các giá trị thiếu cần phải không chứa nhiễu. Hai
thí nghiệm đƣợc đƣa ra để kiểm tra hiệu quả của
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 60
các chiến lƣợc thay thế dữ liệu khác nhau bằng tỷ
lệ che phủ, số lƣợng luật, số lƣợng reduct đƣợc tạo
ra từ mỗi tập dữ liệu. Tỷ lệ phần trăm che phủ là
tốt nhất với mô hình 3 với tập dữ liệu HSV. Nó là
tốt nhất ở mô hình 4 với tập dữ liệu heart disease.
Điều này cho thấy các tập dữ liệu khác nhau có thể
cần sử dụng các mô hình khác nhau để thu đƣợc
kết quả tốt nhất. Điền đầy các giá trị thiếu là một
điều phức tạp và cần nghiên cứu cẩn thận. Kết quả
thí nghiệm cho thấy mô hình tốt nhất tạo ra số
lƣợng lớp luật nhỏ nhất là mô hình bỏ đi các mẫu
chứa giá trị thiếu mà không chú ý tới kích thƣớc
tập dữ liệu.
Nếu ƣu tiên số lƣợng reduct nhỏ nhất thì mô hình
tốt nhất cũng là mô hình bỏ đi các mẫu chứa giá trị
thiếu. Và nếu ƣu tiên dựa vào số lƣợng lớn nhất các
reduct, thì thay thế các giá trị thiếu bằng hằng toàn
cục “missing” là lựa chọn tốt nhất. Nghiên cứu này
kết luận rằng mô hình tốt nhất để xử lý các giá trị
thiếu là phụ thuộc vào nhiệm vụ thực hiện nhƣ hai
trƣờng hợp nghiên cứu trong bài báo này.
TÀI LIỆU THAM KHẢO
[1]. Đoàn Xuân Ngọc (2000) Luận văn cao học, Xử lý
giá trị thiếu, , Đại học Thái Nguyên T11.
[2]. Gaines, B.R. and M.L.G. Shaw, (1986)
Introduction of inference rules for expert systems.
Fuzzy Setand Syustems, 18: 315-328.
[3]. Quinlan, J.R., (1987) Generating production
rules from decision trees. Proc. Tenth Intl. Joint
Conf. Artificial Intelligence, pp: 304 –307, Menlo
Park, Calif.
[4]. Clark, P. and T. Niblett, (1989). The CN2 induction
algorithm. Machine Learning, 3: 261-283.
[5]. Al-shalabi, L., R. Mahmod., A. Abdulghani and
M. Yazid, (1999). Data mining: An overview.
World Engineering Congress (WEC’99), Kuala
Lumpur, Malaysia.
[6]. Pawlak, Z., (1982). Rough Sets. Intl J. Computer
and Information Sci., 11: 341-356.
SUMMARY
TREATMENT OF MISSING DATA IN DATA MINING
Phung Thi Thu Hien
1
, Phung Trung Nghia
2
, Doan Xuan Ngoc
3
1 College of Technology - TNU
2Japan Advanced Institute of Science and Technology, 3Thai Nguyen Tax Department
Information is very important in our life. Development in many research fields depend on the ability of
discovering knowledge in big databases. Scientists from different research areas have developed methods to
analyze data and to extract useful information. These methods depending on the data and on user requirements.
Effect of missing data: missing data effect of the quality of classification rules generated by a data mining
system, the quatity of classification rules achieved by the data mining system, take to the difficulty of
extracting useful information from that data set. Treatment of missing data is very important in data mining. This
paper presents four techniques to deal missing value.
Key words: Data mining, missing data
Tel: 0986 060545, Email: pthientng@gmail.com
Các file đính kèm theo tài liệu này:
- brief_32861_36697_248201210289xulydulieu_8422_2052628.pdf