Xử lý dữ liệu thiếu trong khai phá dữ liệu - Phùng Thị Thu Hiền

Bài báo nghiên cứu về bốn mô hình khác nhau của xử lý giá trị thiếu. Khi áp dụng khai phá dữ liệu vào thế giới thực, việc nghiên cứu từ một tập dữ liệu không đầy đủ là một điều không thể tránh được. Cần có các giải pháp để xử lý các giá trị thiếu. Tuy nhiên các kỹ thuật để dự đoán các giá trị thiếu cần phải không chứa nhiễu. Hai thí nghiệm được đưa ra để kiểm tra hiệu quả của các chiến lược thay thế dữ liệu khác nhau bằng tỷ lệ che phủ, số lượng luật, số lượng reduct được tạo ra từ mỗi tập dữ liệu. Tỷ lệ phần trăm che phủ là tốt nhất với mô hình 3 với tập dữ liệu HSV. Nó là tốt nhất ở mô hình 4 với tập dữ liệu heart disease. Điều này cho thấy các tập dữ liệu khác nhau có thể cần sử dụng các mô hình khác nhau để thu được kết quả tốt nhất. Điền đầy các giá trị thiếu là một điều phức tạp và cần nghiên cứu cẩn thận. Kết quả thí nghiệm cho thấy mô hình tốt nhất tạo ra số lượng lớp luật nhỏ nhất là mô hình bỏ đi các mẫu chứa giá trị thiếu mà không chú ý tới kích thước tập dữ liệu. Nếu ưu tiên số lượng reduct nhỏ nhất thì mô hình tốt nhất cũng là mô hình bỏ đi các mẫu chứa giá trị thiếu. Và nếu ưu tiên dựa vào số lượng lớn nhất các reduct, thì thay thế các giá trị thiếu bằng hằng toàn cục “missing” là lựa chọn tốt nhất. Nghiên cứu này kết luận rằng mô hình tốt nhất để xử lý các giá trị thiếu là phụ thuộc vào nhiệm vụ thực hiện như hai trường hợp nghiên cứu trong bài báo này.

pdf6 trang | Chia sẻ: thucuc2301 | Lượt xem: 666 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Xử lý dữ liệu thiếu trong khai phá dữ liệu - Phùng Thị Thu Hiền, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55 XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU Phùng Thị Thu Hiền1*, Phùng Trung Nghĩa2 ,Đoàn Xuân Ngọc3 1Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên 2Japan Advanced Institute of Science and Technology, 3Cục Thuế tỉnh Thái Nguyên TÓM TẮT Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng. Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra: - Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu. - Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu. - Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu. Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đƣa ra kết luận. Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data).  ĐẶT VẤN ĐỀ Sự gia tăng của kích thƣớc dữ liệu và số lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả năng của con ngƣời để phân tích dữ liệu, do vậy vấn đề quan trọng là cần rút ra tri thức từ các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa lƣợng thông tin lớn về bệnh nhân và điều kiện Y tế của họ. Những mối quan hệ và những mô hình bên trong dữ liệu này đã có thể cung cấp tri thức y học mới. Phân tích dữ liệu y tế thƣờng liên quan đến cách xử lý của tri thức không đầy đủ, với việc quản lý các phần thông tin trái ngƣợc nhau và với các mức độ khác nhau của dữ liệu. Các kỹ thuật để phân tích dữ liệu chính hiện nay dựa trên các giả định khá mạnh (một vài tri thức về sự phụ thuộc, xác suất phân loại, các cuộc thử nghiệm), không thể thu đƣợc các kết luận từ tri thức không đầy đủ, hoặc không thể quản lý các mẩu thông tin trái ngƣợc nhau. Hầu hết các kỹ thuật thông minh sử dụng trong các phép phân tích dữ liệu y tế là sử dụng mạng neura, phân lớp Bayessian, các thuật toán di truyền, cây quyết định, lý thuyết mờ. Nghiên  Tel: 0986 060545, Email: pthientng@gmail.com cứu về khai phá dữ liệu giúp phân tích dữ liệu và khám phá tri thức mới. Mục tiêu là tạo ra một mô hình đơn giản. Các kiến thức khám phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế trong y học, thiên văn học, thị trƣờng chứng khoán và nhiều lĩnh vực khác. Các dữ liệu thu đƣợc cho thấy thực tế không kiểm soát đƣợc mọi thứ, do sự chồng lấp và nhiều phần giống nhau cùng tồn tại. Các mô hình có độ bất định: Nếu A thì B với độ bất định C. Có nhiều phƣơng pháp để thu đƣợc các mô hình nhƣ đã đề xuất, bao gồm Gaines và Shaw trong [2], Quinlan trong [3], Clark và Niblet trong [4], Pawlak trong [6]. Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý giá trị thiếu, phân tích, so sánh ƣu nhƣợc điểm của các phƣơng pháp. PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU GIÁ TRỊ Một vấn đề phổ biến, thách thức trong khai phá dữ liệu và nghiên cứu khám phá tri thức là độ nhiễu của dữ liệu [5]. Trong một cơ sở dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có thể không chính xác hoặc có lỗi. Điều này có thể do lỗi dụng cụ đo không chuẩn hoặc do Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 56 con ngƣời khi nhập dữ liệu. Có hai dạng cơ bản đƣợc mô tả dƣới đây: Các giá trị không chính xác Đôi khi một vài giá trị trong quá trình huấn luyện bị thay đổi. Điều này có thể do một hoặc nhiều bộ dữ liệu mâu thuẫn với các luật đã đƣợc thiết lập. Hệ thống này có thể liên quan đến các giá trị nhiễu và bỏ qua chúng. Vấn đề là không bao giờ biết đƣợc các giá trị nhiễu là chính xác hay không và thách thức là làm thế nào để xử lý các giá trị không bình thƣờng một cách tốt nhất. Các giá trị bị thiếu Một hoặc nhiều giá trị có thể bị thiếu trong quá trình huấn luyện và phân lớp. Dữ liệu thiếu có thể xảy ra do không thể lƣu lại khi mà dữ liệu đã đƣợc tập hợp, hoặc bị bỏ qua do ngƣời sử dụng. Nếu các thuộc tính bị thiếu trong quá trình huấn luyện, hệ thống cũng có thể bỏ qua đối tƣợng hoàn toàn, cố gắng đƣa nó vào quá trình tính toán, ví dụ tìm những thuộc tính thiếu nhiều nhất, hoặc sử dụng giá trị thiếu “missing”, chƣa biết “unknown”, hoặc “null” nhƣ là một giá trị riêng cho thuộc tính này. Giải pháp đơn giản nhất là loại bỏ đi các giá trị dữ liệu bị thiếu. Một giải pháp khó hơn là cố gắng xác định các giá trị thiếu này. CÁC PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU - Bỏ qua bộ dữ liệu: cách này thƣờng đƣợc thực hiện khi thiếu nhãn lớp hoặc bộ dữ liệu chứa nhiều thuộc tính có các giá trị thiếu. - Sử dụng một hằng số chung: Thay thế tất cả các giá trị thiếu bởi một hằng nhƣ là “missing”, “unknown”, “_”, “?” - Sử dụng thuộc tính trung bình: Sử dụng thuộc tính trung bình cho tất cả các mẫu trong lớp giống nhau: ví dụ, nếu phân loại khách hàng theo credit_risk (bảo hiểm tín dụng), thay thế các giá trị thiếu bằng giá trị trung bình của các khách hàng trong cùng một loại credit risk. - Sử dụng các giá trị có tần xuất xuất hiện nhiều nhất: kỹ thuật này thích hợp khi các giá trị thiếu ít. Khó khăn xuất hiện nếu bộ dữ liệu chứa nhiều hơn một giá trị thuộc tính thiếu. CÁC THUẬT TOÁN XỬ LÝ Trƣớc tiên ta cần loại bỏ nhiễu ở dữ liệu gốc, loại bỏ tất cả các bộ dữ liệu có cùng các thuộc tính điều kiện và khác nhau về thuộc tính phân lớp. Điều này giúp nâng cao hiệu quả, giúp loại bỏ tất cả các trƣờng hợp nghi ngờ. Tiến hành thiết kế các cuộc thử nghiệm để kiểm tra lại mô hình nào tốt nhất để thay thế các giá trị thiếu, tạo ra phạm vi hoạt động cao nhất của bộ dữ liệu. Coverage mô tả tỷ lệ phân lớp đối tƣợng. Sử dụng nhiều luật phân lớp sẽ tốn thời gian, cho nên cần giảm số lƣợng luật phân lớp. Một số thử nghiệm của hệ thống sử dụng hệ thống RSES – Rough Set Exploration System. HSV và tập dữ liệu heart disease đƣợc lấy từ kho dữ liệu UCI. Cả hai tập dữ liệu không chứa dữ liệu thiếu. Tập dữ liệu HSV chứa 122 bộ dữ liệu trong khi tập dữ liệu heart disease có 270 bộ dữ liệu. Để tạo dữ liệu thiếu, ta xóa một vài giá trị từ tập dữ liệu gốc. Tập dữ liệu HSV mới có 63 bộ dữ liệu với các giá trị thiếu biến đổi từ 1 tới 9 giá trị thiếu. Tập dữ liệu heart disease mới chứa 81 bộ dữ liệu thiếu với các giá trị biến đổi giữa 1 và 2 giá trị thiếu. Bốn tập dữ liệu khác đƣợc ra từ mỗi tập dữ liệu gốc. Mỗi tập dữ liệu đƣợc mô tả nhƣ sau: DS1: Thay thế các giá trị thiếu bằng hằng “Missing” . Quá trình thay thế đƣợc thực hiện qua mô hình 1 đƣợc mô tả bằng thuật toán 1. Hằng chung “missing” miêu tả các giá trị chƣa biết trong tập dữ liệu. Thuật toán 1 Dự đoán các giá trị thiếu Thừa nhận bảng quyết định T = (U,C,D,V). Với mỗi thuộc tính chứa dữ liệu thiếu thực hiện thay thế dữ liệu thiếu bằng giá trị “Missing” Kết thúc. T là tập dữ liệu không có các giá trị thiếu Độ phức tạp của thuật toán là O(n) nên đây là thuật toán đơn giản. DS2: Thay thế các giá trị thiếu bằng các giá trị trung bình trong tập dữ liệu. Quá trình thay Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 57 thế đƣợc thực hiện qua mô hình 2,3 với thuật toán 2, 3 Thuật toán 2 Dự đoán các giá trị thiếu Thừa nhận bảng quyết định T=(U,C,D,V) Với mỗi thuộc tính có chứa dữ liệu thiếu thực hiện Tìm giá trị trung bình X Thay thế dữ liệu thiếu bằng giá trị trung bình Kết thúc T là tập dữ liệu không chứa giá trị thiếu Độ phức tạp của thuật toán là O(n) nên nó cũng là thuật toán đơn giản. Thuật toán 3 Dự đoán các giá trị thiếu Chấp nhận bảng quyết định T=(U,C,D,V). Chia bảng quyết định theo chiều ngang thành các tập con: T1=(U1,C,D1,V), T2=(U2,C,D2,V), , Tn=(Un,C,Dn,V) với U=(U1,U2,,Un) và D=(D1,D2, , và Dn). Với mỗi tập con thực hiện Với mỗi thuộc tính có chứa dữ liệu thiếu Thực hiện Tìm giá trị trung bình X Thay thế giá trị thiếu bằng giá trị trung bình Kết thúc 1 Kết thúc 2 T1, T2, , Tn là tập con không chứa giá trị thiếu. Độ phức tạp của thuật toán là O(n2) nên nó tốn thời gian hơn để hoàn thành. Hình 1. Mô hình 3 Hình 2. Mô hình dự đoán giá trị thiếu và kiểm tra bằng việc sử dụng các nhân tố khác. DS là viết tắt của Data Set và M viết tắt của Model Bảng 1. Số lƣợng luật, số lƣợng reducts, và độ che phủ của tập dữ liệu HSV, N mô tả số lƣợng mẫu ban đầu. Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 58 Tên tập dữ liệu Tỷ lệ bao phủ (%) Số lượng luật Số lượng reducts HSV1 73 1070 78 HSV2 93.4 1400 57 HSV3 95.1 1332 41 HSV4 93.7 707 39 Bảng 2. Số lƣợng luật, số lƣợng reduct và độ che phủ của tập dữ liệu Heart Disease, N miêu tả số lƣợng mẫu ban đầu Tên tập dữ liệu Tỷ lệ bao phủ (%) Số lượng luật Số lượng reducts Heart_Disease1 93 4803 109 Heart_Disease2 97 5189 89 Heart_Disease3 96.7 5009 91 Heart_Disease4 98.4 3173 86 DS4:Mô tả tập dữ liệu mà bỏ đi tất cả các mẫu chứa các giá trị thiếu. Quá trình loại bỏ đƣợc thực hiện qua mô hình 4 với thuật toán 4 Thuật toán 4 Dự đoán các giá trị thiếu Thừa nhận bảng quyết định T=(U,C,D,V) Lặp : Với mỗi bộ dữ liệu thiếu xóa bộ dữ liệu đó Kết thúc. T là tập dữ liệu không có giá trị thiếu. Độ phức tạp của thuật toán là O(n) nên nó là thuật toán đơn giản. Sau khi thay thế, kiểm tra lại độ mâu thuẫn một lần nữa. Các giá trị mới thay thế có thể là nguyên nhân gây mâu thuẫn do nó không phải là một quá trình hoàn chỉnh. Bỏ qua tất cả các bộ dữ liệu có thuộc tính dự đoán giống nhau và các thuộc tính dự đoán khác nhau. Điều này có thể làm giảm quá trình huấn luyện mẫu dữ liệu nhƣng độ chính xác kết quả huấn luyện sẽ tăng lên. Sự thật là quá trình huấn luyện tập dữ liệu đã giảm thiểu sai sót sẽ cho kết quả tốt hơn trƣờng hợp tập dữ liệu có nhiều sai sót. Điều này đƣợc mô tả trong hình 2, nó mô tả tất cả các bƣớc dự đoán, bỏ đi giá trị lỗi. Việc kiểm tra mô hình thực hiện bằng 3 nhân tố trong hình 2. ĐÁNH GIÁ Bàng 1 và 2 tóm tắt lại số lƣợng các luật, sự thay đổi và tỷ lệ che phủ. Đƣợc tạo ra từ một trong bốn mô hình đã đƣợc thiết kế trƣớc đó. So sánh đầu tiên là thực hiện theo thứ tự để xác định mô hình nào là tốt nhất, cho độ che phủ cao nhất. Với tập dữ liệu HSV, tỷ lệ che phủ là cao nhƣ trong mô hình 3, 95.1%. mô hình 4 đƣa ra kết quả tiếp theo, 93.7 %. Ở vị trí thứ 3, mô hình 2 cho tỷ lệ che phủ là 93.4%. Mô hình kém nhất là mô hình 1, cho tỷ lệ che phủ là 73%. Khi sử dụng tập dữ liệu heat disease, tỷ lệ che phủ của mô hình 1, 2, 3 ,4 là 93, 97, 96.7, 98.4%. Tỷ lệ che phủ tốt nhất là tại mô hình 4, mô hình bỏ đi tất cả các bộ dữ liệu thiếu. Mô hình tồi nhất là mô hình sử dụng hằng toàn cục “missing”. Mô hình 3 đứng thứ 3, mô hình 2 đứng vị trí thứ 2. Kết luận cuối cùng là mô hình 1 có độ che phủ kém nhất trong cả hai tập dữ liệu: HSV và heat disease. Các mô hình khác cho kết quả không ổn định và các kết quả là gần giống nhau. Điều này có thể kết luận rằng không có mô hình nào là tốt nhất để giải quyết vấn đề các giá trị thiếu đối với mọi tập dữ liệu. Việc chọn lựa một mô hình thích hợp cho tập dữ liệu phụ thuộc vào tập dữ liệu mà chúng ta muốn nghiên cứu. Với tập dữ liệu HSV nên dùng mô hình thứ 3 để phân lớp. Với tập dữ liệu heart disease nên dùng mô hình thứ 4. Trong hai thí nghiệm và 4 mô hình, mô hình 4 cho số lƣợng luật phân loại nhỏ nhất (707). Tức là mô hình này là tốt nhất trong 4 mô hình. Mô hình tốt thứ 2 là mô hình 1, tạo ra 1070 luật. Mô hình 3 đứng thứ 3 với 1332 luật. Cuối cùng là mô hình 2 với 1400 luật. So sánh thứ 3 tập trung vào số lƣợng reduct mà mỗi mô hình tạo ra. Có hai điểm khác nhau. Thứ nhất, một lƣợng lớn reduct đƣợc tạo ra là đƣợc ƣa thích nhất bởi vì một lƣợng lớn reduct sẽ cho một miền reduct rộng để sử dụng. Sự khác nhau của các reducts giúp ngƣời sử dụng chọn lựa reduct tốt nhất. Nếu đây là trƣờng hợp, mô hình 1 là mô hình tốt nhất trong cả hai lần thí nghiệm và nó tạo ra 78 reduct từ tập dữ liệu HSV và 109 từ tập dữ liệu heat disease. Mô hình 3 là sự lựa chọn tốt thứ 2 cho tập dữ Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 59 liệu heat disease và tạo ra 91 reduct. Mô hình 2 là sự lựa chọn tốt thứ 2 cho tập dữ liệu HSV và tạo ra 57 reduct. Vị trí thứ 3 trong tập dữ liệu heat disease là sử dụng mô hình thứ 2, tạo ra 89 reducts. Vị trí thứ 3 với tập HSV là mô hình 3, tạo ra 41 reduct. Lựa chọn cuối cùng của cả hai tập dữ liệu là mô hình 4, tạo ra 39 reducts từ tập dữ liệu HSV và 86 reduct từ tập dữ liệu heart disease. Mô hình 4 đƣợc ƣu tiên cuối cùng vì lý do kích cỡ mới của tập dữ liệu này. Sau khi xóa đi tất cả các mẫu có chứa giá trị thiếu, tập dữ liệu sẽ có kích cỡ nhỏ hơn và điều này có thể ảnh hƣởng đến nhiều mối quan hệ trong tập dữ liệu đặc biệt là nếu nhiều mẫu liên quan bị xóa. Điểm thứ hai cần xem xét là mô hình tốt nhất là mô hình tạo ra số lƣợng reduct nhỏ hơn. Với quan điểm xem xét rằng thời gian là một yếu tố quan trọng. Thời gian tính toán của việc tạo ra reduct đƣợc giảm thiểu. Nói cách khác, số lƣợng tính toán và so sánh trong tập dữ liệu đƣợc giảm thiểu. Hình 3. Mối quan hệ của bốn loại của tập dữ liệu và tỷ lệ che phủ Hình 4. Mối quan hệ giữa bốn loại của tập dữ liệu và số lƣợng luật đƣợc tạo ra Hình 5. Mối quan hệ giữa bốn loại của tập dữ liệu và số lƣợng reduct đƣợc tạo ra Kết quả của điều này ngƣợc với điểm đã xem xét đầu tiên. Mô hình 4 là tốt nhất trong cả hai tập dữ liệu, tiếp theo là mô hình 2 của tập dữ liệu heart disease và mô hình 3 của tập dữ liệu HSV. Đứng thứ 3 là mô hình thứ 3 của tập dữ liệu heart disease, và là mô hình 2 với tập dữ liệu HSV. Lựa chọn cuối cùng là mô hình thứ nhất với cả hai tập dữ liệu HSV và heart disease. Mối quan hệ giữa các tập dữ liệu khác nhau và sự ƣớc lƣợng các nhân tố đƣợc thể hiện trong hình 3 – 5. Hình 3 thể hiện mối quan hệ giữa các tập dữ liệu và tỷ lệ phần trăm che phủ. Hình 4 thể hiện mối quan hệ giữa các tập dữ liệu khác nhau và số lƣợng các luật đƣợc tạo ra từ mỗi tập. Hình 5 thể hiện mối quan hệ giữa bốn loại khác nhau của tập dữ liệu và số lƣợng các reduct. Đƣờng nằm trên mô tả tập dữ liệu heart disease trong khi đƣờng nằm dƣới mô tả tập dữ liệu HSV. Khoảng cách giữa các đƣờng hoặc khoảng cách giữa các điểm tƣơng ứng trên đƣờng mô tả sự khác nhau của các giá trị đo đƣợc giữa các nhân tố khác nhau, tỷ lệ che phủ ở hình 3, số lƣợng luật ở hình 4, số lƣợng reduct ở hình 5. KẾT LUẬN Bài báo nghiên cứu về bốn mô hình khác nhau của xử lý giá trị thiếu. Khi áp dụng khai phá dữ liệu vào thế giới thực, việc nghiên cứu từ một tập dữ liệu không đầy đủ là một điều không thể tránh đƣợc. Cần có các giải pháp để xử lý các giá trị thiếu. Tuy nhiên các kỹ thuật để dự đoán các giá trị thiếu cần phải không chứa nhiễu. Hai thí nghiệm đƣợc đƣa ra để kiểm tra hiệu quả của Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 60 các chiến lƣợc thay thế dữ liệu khác nhau bằng tỷ lệ che phủ, số lƣợng luật, số lƣợng reduct đƣợc tạo ra từ mỗi tập dữ liệu. Tỷ lệ phần trăm che phủ là tốt nhất với mô hình 3 với tập dữ liệu HSV. Nó là tốt nhất ở mô hình 4 với tập dữ liệu heart disease. Điều này cho thấy các tập dữ liệu khác nhau có thể cần sử dụng các mô hình khác nhau để thu đƣợc kết quả tốt nhất. Điền đầy các giá trị thiếu là một điều phức tạp và cần nghiên cứu cẩn thận. Kết quả thí nghiệm cho thấy mô hình tốt nhất tạo ra số lƣợng lớp luật nhỏ nhất là mô hình bỏ đi các mẫu chứa giá trị thiếu mà không chú ý tới kích thƣớc tập dữ liệu. Nếu ƣu tiên số lƣợng reduct nhỏ nhất thì mô hình tốt nhất cũng là mô hình bỏ đi các mẫu chứa giá trị thiếu. Và nếu ƣu tiên dựa vào số lƣợng lớn nhất các reduct, thì thay thế các giá trị thiếu bằng hằng toàn cục “missing” là lựa chọn tốt nhất. Nghiên cứu này kết luận rằng mô hình tốt nhất để xử lý các giá trị thiếu là phụ thuộc vào nhiệm vụ thực hiện nhƣ hai trƣờng hợp nghiên cứu trong bài báo này. TÀI LIỆU THAM KHẢO [1]. Đoàn Xuân Ngọc (2000) Luận văn cao học, Xử lý giá trị thiếu, , Đại học Thái Nguyên T11. [2]. Gaines, B.R. and M.L.G. Shaw, (1986) Introduction of inference rules for expert systems. Fuzzy Setand Syustems, 18: 315-328. [3]. Quinlan, J.R., (1987) Generating production rules from decision trees. Proc. Tenth Intl. Joint Conf. Artificial Intelligence, pp: 304 –307, Menlo Park, Calif. [4]. Clark, P. and T. Niblett, (1989). The CN2 induction algorithm. Machine Learning, 3: 261-283. [5]. Al-shalabi, L., R. Mahmod., A. Abdulghani and M. Yazid, (1999). Data mining: An overview. World Engineering Congress (WEC’99), Kuala Lumpur, Malaysia. [6]. Pawlak, Z., (1982). Rough Sets. Intl J. Computer and Information Sci., 11: 341-356. SUMMARY TREATMENT OF MISSING DATA IN DATA MINING Phung Thi Thu Hien 1 , Phung Trung Nghia 2 , Doan Xuan Ngoc 3 1 College of Technology - TNU 2Japan Advanced Institute of Science and Technology, 3Thai Nguyen Tax Department Information is very important in our life. Development in many research fields depend on the ability of discovering knowledge in big databases. Scientists from different research areas have developed methods to analyze data and to extract useful information. These methods depending on the data and on user requirements. Effect of missing data: missing data effect of the quality of classification rules generated by a data mining system, the quatity of classification rules achieved by the data mining system, take to the difficulty of extracting useful information from that data set. Treatment of missing data is very important in data mining. This paper presents four techniques to deal missing value. Key words: Data mining, missing data Tel: 0986 060545, Email: pthientng@gmail.com

Các file đính kèm theo tài liệu này:

  • pdfbrief_32861_36697_248201210289xulydulieu_8422_2052628.pdf