Sử dụng mạng nơron nhân tạo Fuzzy ART để phân cụm dữ liệu

Fuzzy neural network is an artificial neural network that combines fuzzy concepts, fuzzy inference rule with structure and learning ability of neural network. Clustering is an important tool in data mining and knowledge discovery. Fuzzy ART (Fuzzy Adaptive Resonance Theory) is a fuzzy neural network that solves effectively clustering problem. Fuzzy ART clusters better than traditional methods based on three following advantages: Learning data until satisfying a given conddition, creating a new category without affecting to existing categories, and easily choosing parameters of Fuzzy ART. In this papper, we apply Fuzzy ART for clustering 5 brenchmark datasets. After showing results of experiments, we present guide to choose suitable values for parameters of Fuzzy ART that the ability of clustering is the highest. Then, we analysis the advantages of Fuzzy ART when it is applied to clustering data. Results from experiments also show that Fuzzy ART cluster much effectively for clustering problems

5 trang | Chia sẻ: yendt2356 | Lượt xem: 306 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Sử dụng mạng nơron nhân tạo Fuzzy ART để phân cụm dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 49 SỬ DỤNG MẠNG NƠRON NHÂN TẠO FUZZY ART ĐỂ PHÂN CỤM DỮ LIỆU Nông Thị Hoa1*, Hoàng Trọng Vĩnh2 1Trường Đại học Công nghệ Thông tin & Truyền thông - ĐH Thái Nguyên 2Công ty FPT software TÓM TẮT Mạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễn mờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng của khai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy Adaptive Resonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn các phương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm của Fuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụm cho các tập dữ liệu đạt độ chính xác cao nhất. Các thực nghiệm được làm với 5 tập dữ liệu chuẩn trong cơ sở dữ liệu UCI để chứng minh tính hiệu quả của Fuzzy ART. Kết quả thực nghiệm cho thấy Fuzzy ART cho kết quả phân cụm với độ chính xác cao. Từ khóa: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, Clustering GIỚI THIỆU* Phân cụm dữ liệu là một công cụ quan trọng của khai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Hơn nữa, phân cụm còn tổng hợp một số lượng lớn dữ liệu trong một số lượng nhỏ các nhóm nên phân cụm có ích cho cho việc hiểu một số lượng lớn dữ liệu. Một số phương pháp phân cụm truyền thống đã được đưa ra như K-mean [2], phân cụm phân cấp [3], và mô hình SOM [6] nhưng độ phức tạp tính toán của các phương pháp này khá lớn. Fuzzy ART [1] là một mạng nơron mờ có các ưu điểm gồm: Học dữ liệu huấn luyện cho đến khi thỏa mãn một điều kiện nhất định, có thể sinh ra nhóm mới mà không phá vỡ các nhóm đang tồn tại, dễ dàng lựa chọn các tham số của mạng. Do đó, Fuzzy ART phân cụm dữ liệu với độ chính xác cao và giảm đáng kể độ phức tạp tính toán. BÀI TOÁN PHÂN CỤM DỮ LIỆU Phát biểu bài toán Cho tập dữ liệu D. Mỗi dữ liệu I trong tập D được biểu diễn bằng một véc tơ có M phần tử. Mỗi thành phần của I nằm trong khoảng [0, 1]. Khi đó ta có: I=(I1, ., IM ). * Tel: 01238 492 484 Tập D có p nhóm. Mỗi nhóm có một véc tơ trọng số W gồm có M phần tử. Khi đó véc tơ trọng số của nhóm k được biểu diễn như sau: Wk=(Wk1, ., IkM ) Mỗi dữ liệu I thuộc về một nhóm h nhất định. Yêu cầu: Dựa vào sự tương đồng giữa mỗi dữ liệu I và véc tơ trọng số W của các nhóm để phân dữ liệu I vào nhóm h. Một số phương pháp giải truyền thống Teuvo Kohonen [6] đưa ra một mô hình của một quá trình tự tổ chức mới mà được gọi là mô hình SOM. SOM là một mạng nơ ron nhân tạo thực hiện học không giám sát để tạo ra một biểu diễn cho không gian dữ liệu vào với số chiều thấp hơn. M.Queen [2] đưa ra thuật toán K-mean mà phân chia tập dữ liệu vào một số cụm nhất định bằng việc cực tiểu hàm lỗi bình phương. Sau đó, trọng số của các cụm được cập nhật bởi giá trị trung bình của các mẫu trong mỗi phân cụm. Johnson [3] đưa ra thuật toán phân cụm phân cấp dựa vào sự nhập lại của hai cụm gần nhất. Tuy nhiên các phương pháp này có độ phức tạp tính toán khá cao do việc luôn tính lại trọng số của mỗi phân lớp khi xét một dữ liệu huấn luyện. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 50 FUZZY ART Mô hình mạng ART Các mạng nơron ART được phát triển bởi Grossberg [4][5] để giải quyết vấn đề về hiện tượng ổn định-linh hoạt. Mạng ART là một thuật toán học tăng cường nên mạng ART thích nghi được với một dữ liệu mới. Ở một thời điểm, mạng ART không cho phép thay đổi các mẫu đã lưu cho đến khi mẫu vào khớp với các mẫu đã lưu với một mức nhiễu nhất định. Nghĩa là, mạng ART có cả tính linh hoạt và ổn định. Một phân nhóm mới có thể hình thành khi môi trường không khớp với các mẫu đã lưu, nhưng môi trường không thể thay đổi các mẫu đã lưu trừ khi sự tương tự của chúng đạt đến một mức đặt trước. Cấu trúc chung của mạng ART được thể hiện ở Hình 1. Một mạng ART điển hình có hai tầng: tầng dữ liệu vào (F1) và tầng dữ liệu ra (F2). Tầng dữ liệu vào chứa N nút với N là số lượng các mẫu dữ liệu vào. Số lượng nút của tầng dữ liệu ra là động. Mỗi nút của tầng có một véc tơ kiểu tương ứng. Tính động của mạng được điều khiển bởi hai hệ thống con: hệ thống chú ý và hệ thống định hướng. Hệ thống chú ý đưa ra một nơron chiến thắng (hay nhóm) và hệ thống định hướng quyết định nhóm nào chấp nhận hay không chấp nhận dữ liệu vào đó. Mạng này ở trong một trạng thái cộng hưởng khi hệ thống định hướng chấp nhận một nhóm chiến thắng, nghĩa là véc tơ kiểu chiến thắng khớp đủ gần với mẫu dữ liệu vào hiện tại. Thuật toán Fuzzy ART Thuật toán này được Carpenter trình bày ngắn gọn trong [1]. Sau đây là ba tham số thể hiện tính động của mô hình Fuzzy ART: • tham số chọn α> 0; • tham số tốc độ học β∈[0, 1] • tham số ngưỡng ∈[0, 1]; Nội dung của thuật toán được trình bày như sau: Bước 1: Khởi tạo véc tơ trọng số. mỗi phân lớp j tương ứng với một véc tơ Wj= (Wj1,..., WjM) của các trọng số thích nghi hay vết bộ nhớ dài hạn. Số các nhóm tiềm năng N (j = i,..., N) là bất kỳ. Khởi tạo (1) và mỗi nhóm được coi là chưa hình thành. Sau khi một nhóm được chọn để mã hóa, nhóm được hình thành. Như biểu diễn dưới đây, mỗi vết bộ nhớ dài hạn Wji là không tăng dần theo thời gian và vì vậy các Wji hội tụ tới một giới hạn. Bước 2: Lựa chọn một nhóm chiến thắng: Với mỗi dữ liệu vào I và nhóm j, hàm chọn Tj được định nghĩa bởi (2) với phép toán AND, ⋏, trong logic mờ được định nghĩa: (3) và với dạng được định nghĩa: (4) Để đơn giản việc ký hiệu, Tj(I) trong Công thức 2 thường được viết là Tj khi dữ liệu vào I là cố định. Sự chọn nhóm được gắn chỉ số bằng j, với (5) Nếu có nhiều hơn một Tj là cực đại thì nhóm j với chỉ số nhỏ nhất được chọn. Cụ thể hơn, các nút được hình thành theo thứ tự j = 1, 2, 3, . . . . Bước 3: Kiểm tra trạng thái của mạng là cộng hưởng hay thiết lập lại: Cộng hưởng xuất hiện nếu hàm đối chiếu của nhóm được chọn đạt điều kiện về ngưỡng. Điều kiện là: (6) Sau đó việc học sẽ diễn ra. Hình 1: Mô hình đơn giản của mạng ART Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 51 Thiết lập lại xuất hiện nếu (7) Sau đó, giá trị của hàm chọn Tj được thiết lập -1 cho các biểu diễn dữ liệu vào để ngăn sự lựa chọn lại dữ liệu vào trong quá trình tìm kiếm. Một chỉ số mới j được chọn bởi Công thức 5. Quá trình tìm kiếm tiếp tục cho đến khi j được chọn thỏa mãn Công thức 6. Nếu không có nhóm đang tồn tại nào thỏa mãn điều trong Công thức 6 thì một nhóm mới j được sinh ra và đặt Bước 4: Học dữ liệu huấn luyện: :Véc tơ trọng số Wj được cập nhật theo công thức (8) Phân cụm dữ liệu bằng Fuzzy ART: Chọn ra một tập con (D’) các mẫu bất kỳ từ tập D. Dùng tập D’ để Fuzzy ART huấn luyện. Sau đó dùng tập dữ liệu còn lại để kiểm tra khả năng phân cụm của Fuzzy ART. Để tăng hiệu quả của việc học có thể chọn nhiều tập con khác nhau để huấn luyện và dùng phần dữ liệu còn để kiểm tra khả năng phân cụm. PHÂN TÍCH CÁC ƯU ĐIỂM VÀ HƯỚNG DẪN CHỌN CÁC THAM SỐ CHO FUZZY ART Các ưu điểm của Fuzzy ART để giải bài toán phân cụm dữ liệu Việc dùng mô hình Fuzzy ART vào phân cụm dữ liệu sẽ tận dụng được hết các ưu điểm của Fuzzy ART. Thứ nhất, Fuzzy ART học dữ liệu huấn luyện để hình thành các nhóm chỉ khi mức độ tương đồng giữa dữ liệu huấn luyện và một nhóm đạt đến một ngưỡng nhất định. Điều kiện này được điều chỉnh để chất lượng của mỗi nhóm là cao. Thứ hai, Fuzzy ART sinh ra các nhóm mới khi mức độ tương đồng giữa dữ liệu huấn luyện và mọi nhóm đều không đạt ngưỡng về sự tương đồng. Do nhóm mới được hình thành nên làm giảm được sự chồng chéo các nhóm. Thứ ba, các tham số của Fuzzy ART được lựa chọn dễ dàng do miền giá trị của cả ba tham số đều nằm trong miền [0, 1] và có thể chọn giá trị thích hợp như hướng dẫn ở phần tiếp theo. Theo các phân tích ở trên, chúng ta thấy Fuzzy ART giải quyết tốt bài toán phân cụm bởi hai lý do sau: Fuzzy ART được thiết kế để phân cụm dữ liệu và dễ dàng chọn được các tham số của Fuzzy ART để khả năng phân cụm là cao nhất. Hơn nữa, Fuzzy ART chỉ cập nhật trọng số của một nhóm được chọn và trọng số của nhóm mới cũng không phụ thuộc vào các mẫu đã xét thuộc về nhóm đó nên độ phức tạp tính toán của Fuzzy ART giảm hơn khá nhiều so với các phương pháp phân cụm truyền thống. Nói cách khác, việc áp dụng Fuzzy ART cho bài toán phân cụm dữ liệu là hiệu quả cả về mặt chất lượng và giảm thời gian tính toán. Hướng dẫn chọn giá trị cho các tham số của Fuzzy ART Việc lựa chọn giá trị cho các tham số để Fuzzy ART có khả năng phân cụm cao nhất là khá đơn giản. Theo Công thức (2), nếu α càng lớn thì khả năng dữ liệu huấn luyện được chọn vào một nhóm lại càng giảm và ngược lại. Do đó tùy vào mục đích của bài toán phân cụm là cần phân cụm thô hay độ chính xác cao, chúng ta có thể chọn α là nhỏ hay lớn. Tham số β thể hiện tốc độ học của mô hình. Nói cách khác, β thể hiện mức độ ảnh hưởng của dữ liệu huấn luyện đến trọng số của các nhóm. Theo Công thức (8), nếu β càng lớn thì ảnh hưởng của dữ liệu huấn luyện càng nhiều và ngược lại. Do đó tùy vào tính chất của dữ liệu trong tập mẫu, chúng ta có thể chọn β là lớn nếu các dữ liệu trong tập mẫu là chuẩn và chọn β là nhỏ nếu tập mẫu có chứa các mẫu dị thường. Theo Công thức (6), nếu ρ càng lớn thì sự tương đồng giữa dữ liệu huấn luyện và một nhóm càng cao. Do đó, chúng ta có thể chọn ρ thích hợp ứng với tính chất của tập dữ liệu cần phân cụm. Nói cách khác, nếu dữ liệu phân bố rời rạc và có nhiều dữ liệu dị thường thì nên chọn ρ là nhỏ và ngược lại. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 52 KẾT QUẢ THỰC NGHIỆM Chúng tôi chọn 5 tập dữ liệu chuẩn từ cơ sở dữ liệu UCI1 và Shape2 bao gồm Iris, Wine, Jain, Flame, và R15. Các tập dữ liệu này là khác nhau từ số thuộc tính, số phân cụm, số mẫu huấn luyện, và sự phân bố các mẫu ở các phân cụm. Bảng 1 thể hiện các thông tin trên của các tập dữ liệu được chọn. Bảng 1: Đặc trưng của các tập dữ liệu Thứ tự Tên tập dữ liệu Số phân cụm Số thuộc tính Số mẫu 1 Iris 3 4 150 2 Glass 7 9 214 3 Wine 3 13 178 4 Jain 2 2 373 5 R15 15 2 600 Dữ liệu của các tập dữ liệu được chuẩn hóa về miền [0,1]. Chúng tôi xác định giá trị của các tham số của mô hình để đạt được kết quả phân cụm cao nhất với α=0.5, β=0.1 và ρ=0.4. Với mỗi tập dữ liệu, chúng tôi làm các thử nghiệm con với số lượng mẫu tăng dần. Tỷ lệ phần trăm các mẫu được phân cụm đúng được thể hiện trong một bảng tương ứng với tập dữ liệu đó. Kiểm tra với tập Iris Sự phân bố số mẫu trong ba nhóm là đồng đếu mỗi nhóm có 50 mẫu. Bảng 2 thể hiện kết quả thực nghiệm với tập mẫu Iris. Các kết quả thể hiện rằng Fuzzy ART có tỉ lệ phân cụm dữ liệu đúng từ 93.3% đến 100%. Kết quả này cho thấy Fuzzy ART phân lớp đạt hiệu quả cao với tập Iris. Bảng 2: Tỷ lệ phần trăm các mẫu được phân cụm đúng trong tập mẫu Iris Số mẫu 30 60 90 120 150 Kết quả 100 98.3 93.3 95 96 Kiểm tra với tập Flame Sự phân bố số mẫu trong hai nhóm là 87 và 153. Các số liệu từ Bảng 3 thể hiện kết quả 1 Dữ liệu ở địa chỉ http:// archive.ics.uci.edu/ml/ datasets 2 Dữ liệu ở địa chỉ thực nghiệm với tập mẫu Flame. Các kết quả thể hiện rằng Fuzzy ART có tỉ lệ phân cụm dữ liệu đúng từ 84.6% đến 100%. Kết quả này cho thấy Fuzzy ART phân lớp đạt hiệu quả khá cao với tập Flame. Bảng 3: Tỷ lệ phần trăm các mẫu được phân cụm đúng trong tập mẫu Flame Số mẫu 50 100 150 200 240 Kết quả 100 98.0 98.7 95 84.6 Kiểm tra với tập R15 Sự phân bố số mẫu trong 15 nhóm là đồng đếu mỗi nhóm có 40 mẫu. Bảng 4 thể hiện kết quả thực nghiệm với tập mẫu R15. Các kết quả thể hiện rằng Fuzzy ART có tỉ lệ phân cụm dữ liệu đúng từ 95.3% đến 97.3%. Kết quả này cho thấy Fuzzy ART phân lớp đạt hiệu quả cao với tập R15. Bảng 4: Tỷ lệ phần trăm các mẫu được phân cụm đúng trong tập mẫu R15 Số mẫu 100 200 300 400 500 600 Kết quả 96 95.5 95.3 96 96.8 97.3 Kiểm tra với tập Wine Sự phân bố số mẫu trong ba nhóm lần lượt là 59, 71, và 48. Bảng 5 thể hiện kết quả thực nghiệm với tập mẫu Wine. Các kết quả thể hiện rằng Fuzzy ART có tỉ lệ phân cụm dữ liệu đúng từ 76.7% đến 100%. Kết quả này cho thấy Fuzzy ART phân lớp đạt hiệu quả khá cao với tập Wine. Bảng 5: Tỷ lệ phần trăm các mẫu được phân cụm đúng trong tập mẫu Wine Số mẫu 30 60 90 120 150 178 Kết quả 100 98.3 83.3 76.7 77.3 77.5 Kiểm tra với tập Jain Sự phân bố số mẫu trong hai nhóm là 276 và 97. Các số liệu từ Bảng 6 thể hiện kết quả thực nghiệm với tập mẫu Jain. Các kết thể hiện rằng Fuzzy ART có tỉ lệ phân cụm dữ liệu đúng từ 94.6% đến 99.6%. Kết quả này Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 53 cho thấy Fuzzy ART phân lớp đạt hiệu quả cao với tập Jain. Bảng 6: Tỷ lệ phần trăm các mẫu được phân cụm đúng trong tập mẫu Jain Số mẫu 100 200 300 373 Kết quả 99 99.5 96.3 94.6 Việc lựa chọn ba tham số α, β, ρ và kết quả phân cụm đúng của 5 thực nghiệm trên cho thấy Fuzzy ART giải quyết hiệu quả bài toán phân cụm dữ liệu với tỷ lệ % phân cụm đúng cao hơn 95% trong hầu hết các kiểm tra con. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi đã sử dụng thành công mô hình Fuzzy ART cho nhiệm vụ phân cụm dữ liệu với việc lựa các tham số của mô hình để đạt kết quả phân cụm cao nhất. Kết quả thực nghiệm cũng cho thấy độ chính xác của các nhóm do Fuzzy phân cụm là cao trong hầu hết các trường hợp. Hiện nay, các thử nghiệm đã cho kết quả cao nhưng để khả năng phân cụm của Fuzzy ART chính xác hơn thì cần thiết kế thêm các thuật toán để tìm ra giá trị thích hợp cho các tham số tùy vào từng tập dữ liệu mẫu. TÀI LIỆU THAM KHẢO 1. G. Carpenter, S. Grossberg, and D. B. Rosen (1991), “Fuzzy ART: Fast Stable Learning and Categorization of Analog Patterns by an Adaptive Resonance System,” Neural Networks, vol. 4, pp. 759–771. 2. J.B.MacQueen (1967), “Some methods for classification and analysis of multivariate obser- vations,” Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, no. 1, pp. 281–297. 3. S. C. Johnson (1967), "Hierarchical Clustering Schemes," Psychometrika, vol. 32, issue 3, pp. 241-254. 4. S. Grossberg (1976), “Adaptive pattern classification and universal recoding, II: Feedback, expectation, olfaction and illusions,” Biological Cybernetics, 23, 187-212. 5. S. Grossberg (1980), “How does a brain build a cognitive code”, Studies of mind and brain: Neural principles of learning, perception, development, cognition, and motor control (Chap. I). Boston, MA: Reidel Press. 6. T. Kohonen (1982), “Self-Organizing Formation of Topologically Correct Feature Maps,” Biological Cybernetics, Springer-Verlag, vol. 69, pp. 59–69. SUMMARY USING FUZZY ART NEURAL NETWORK FOR CLUTERING DATA Nong Thi Hoa1*, Hoang Trong Vinh2 1College of Information Technology & Communication - TNU 2 FPT software company Fuzzy neural network is an artificial neural network that combines fuzzy concepts, fuzzy inference rule with structure and learning ability of neural network. Clustering is an important tool in data mining and knowledge discovery. Fuzzy ART (Fuzzy Adaptive Resonance Theory) is a fuzzy neural network that solves effectively clustering problem. Fuzzy ART clusters better than traditional methods based on three following advantages: Learning data until satisfying a given conddition, creating a new category without affecting to existing categories, and easily choosing parameters of Fuzzy ART. In this papper, we apply Fuzzy ART for clustering 5 brenchmark datasets. After showing results of experiments, we present guide to choose suitable values for parameters of Fuzzy ART that the ability of clustering is the highest. Then, we analysis the advantages of Fuzzy ART when it is applied to clustering data. Results from experiments also show that Fuzzy ART cluster much effectively for clustering problems. Key words: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, Clustering Ngày nhận bài: 15/5/2013; Ngày phản biện: 20/5/2013; Ngày duyệt đăng:26/7/2013 * Tel: 01238 492 484 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Các file đính kèm theo tài liệu này:

brief_39399_42941_2102013933649_8206_2051970.pdf