Một số giải pháp cải tiến nhằm tăng tốc độ thuật toán mạng Nơron SOM - Lê Anh Tú

KẾT LUẬN Giải pháp thu hẹp phạm vi tìm kiếm BMU đã trình bày ở phần 3 khá hay, tuy nhiên chỉ có hiệu quả trong trƣờng hợp tập mẫu đƣợc dùng lặp lại nhiều lần để huấn luyện mạng. Điều này chỉ phù hợp trong các bài toán có số lƣợng phần tử của tập mẫu ít. Trong những bài toán có tập mẫu đủ lớn để mạng đạt trạng thái cân bằng (không cần lặp lại huấn luyện nhiều lần bằng tập mẫu) hoặc tập dữ liệu cần phân nhóm lớn thì giải pháp xử lý song song dựa trên kiến trúc mạng phân tầng đã nêu trong phần 4 đạt hiệu quả hơn, bởi hai lý do chính: một là giảm đƣợc kích thƣớc ma trận kohonen (do các đặc trƣng của dữ liệu không biểu diễn trên một ma trận Kohonen mà đƣợc biểu diễn trên các ma trận Kohonen con là các nút lá của cây huấn luyện), hai là cho phép phân mảnh dữ liệu để huấn luyện song song trên nhiều mạng nơron SOM khác nhau. Ngoài ra, do mô hình huấn luyện đƣợc biểu diễn theo cấu trúc cây nên thời gian áp dụng mạng đã huấn luyện để phân cụm dữ liệu cũng giảm đáng kể. Tuy nhiên, với mô hình cây phân tầng việc xác định một cấu hình mạng phù hợp là một vấn đề khó. Với mỗi dạng bài toán cần nhiều lần “thử sai” để xác định cấu hình phù hợp nhất. Đây là vấn đề cần tiếp tục nghiên cứu.

6 trang | Chia sẻ: thucuc2301 | Lượt xem: 461 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Một số giải pháp cải tiến nhằm tăng tốc độ thuật toán mạng Nơron SOM - Lê Anh Tú, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 79 MỘT SỐ GIẢI PHÁP CẢI TIẾN NHẰM TĂNG TỐC ĐỘ THUẬT TOÁN MẠNG NƠRON SOM Lê Anh Tú 1*, Lê Sơn Thái1, Nguyễn Quang Hoan2 1Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên, 2Học viện Công nghệ Bưu chính Viễn thông TÓM TẮT Mạng nơron SOM đƣợc ứng dụng chủ yếu trong các bài toán phân cụm dữ liệu. Tuy nhiên, tập dữ liệu vào cho những bài toán này thƣờng rất lớn ảnh hƣớng tới thời gian tính toán. Bài báo này trình bày hai giải pháp để cải thiện thời gian tính toán của mạng gồm: thu hẹp phạm vi tìm kiếm nơron chiến thắng và xử lý dữ liệu song song dựa trên kiến trúc mạng phân tầng. Đồng thời trình bày kết quả cài đặt thử nghiệm và đánh giá hiệu quả của mỗi giải pháp. Từ khóa: SOM, Kohonen, BMU, phân tầng, phân cụm dữ liệu GIỚI THIỆU* Mạng nơron SOM đƣợc Teuvo Kohonen phát triển vào những năm 80 [1]. Đây là một công cụ thích hợp để giải bài toán phân cụm dữ liệu, một bƣớc tiền xử lý quan trọng trong khai phá dữ liệu [2]. Khi áp dụng mạng nơron SOM để phân cụm dữ liệu, cần thực hiện theo 3 giai đoạn: Giai đoạn 1: Huấn luyện mạng bằng tập dữ liệu mẫu. Trong trƣờng hợp tập dữ liệu huấn luyện chƣa đủ lớn thì quá trình huấn luyện có thể đƣợc lặp lại nhiều lần với cùng một tập mẫu cho tới khi mạng đạt trạng thái cân bằng. Giai đoạn 2: Phân cụm nơron (thƣờng sử dụng thuật toán tích tụ [10]) hoặc trực quan mạng để quan sát [11]. Giai đoạn 3: Áp dụng mạng đã huấn luyện để phân cụm (với mỗi phần tử trong tập dữ liệu cần phân cụm, tìm trên ma trận Kohonen nơron có đặc trƣng khớp nhất và gán nhãn phần tử vào nơron này). Tuy nhiên, thuật toán SOM đòi hỏi thời gian tính toán lớn (cả thời gian huấn luyện và áp dụng mạng đã huấn luyện) vì một số lý do sau: Thứ nhất, tập dữ liệu huấn luyện hoặc số lần huấn luyện phải đủ lớn để mạng đạt đƣợc trạng thái cân bằng. Thứ hai, dữ liệu đƣợc đƣa vào mạng một cách tuần tự, sau đó với mỗi phần tử dữ liệu đƣợc * Tel: 0989 199088, Email: latu@ictu.edu.vn đƣa vào lại phải tìm kiếm tuần tự trên toàn bộ ma trận Kohonen để xác định nơron chiến thắng (BMU-Best Matching Unit). Thứ ba, trong các bài toán khai phá dữ liệu tập dữ liệu cần đánh giá thƣờng rất lớn. Do vậy kích thƣớc ma trận Kohonen phải đủ lớn để mô tả đƣợc hết đặc trƣng của dữ liệu, thƣờng là hàng nghìn nơron. Hiện tại, đã có nhiều nghiên cứu về vấn đề này, chẳng hạn: thuật toán Batch SOM [3] tăng tốc độ huấn luyện bằng cách chỉ cập nhật trọng số của các nơron vào cuối quá trình huấn luyện (sau khi duyệt hết các mẫu huấn luyện); Tree-Structured SOM (TS-SOM) [5] là một cấu trúc huấn luyện và tìm kiếm BMU dạng cây, trong đó mỗi nút trên cây là một nơron. Số lƣợng nút con của mỗi nút bằng nhau và tăng theo hàm mũ. Các nút cùng cấp tạo thành một lớp (layer), lớp trên đƣợc dùng để huấn luyện lớp dƣới. Ví dụ, lớp đầu tiên có 4 nút (nơron), mỗi nút có 4 nút con, vậy lớp thứ hai có 16 nút, lớp thứ 3 có 64 nút,... nhƣ vậy thời gian huấn luyện nhanh hơn do việc tìm BMU tại mỗi bƣớc huấn luyện đƣợc thực hiện theo các nhánh của cây. Tuy nhiên cấu trúc này vẫn còn nhiều hạn chế do dữ liệu vẫn đƣợc đƣa vào và xử lý trong mạng một cách tuần tự. Mô hình mạng nơron SOM phân tầng (Hierarchical SOMs - HSOM) [4] với tƣ tƣởng kết hợp chia dữ liệu (chia tập dữ liệu thành nhiều tập con) và chia mạng (chia ma trận Kohonen thành nhiều nhóm nhỏ các Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 80 nơron, mỗi nhóm nhỏ này đƣợc coi nhƣ một mạng con) nhằm giảm thời gian tìm kiếm BMU và xử lý dữ liệu một cách đồng thời. HSOM có hai dạng chính: dạng thứ nhất, ngay từ đầu dữ liệu đƣợc chia thành nhiều tập con để huấn luyện trên nhiều mạng sau đó tổng hợp các kết quả huấn luyện vào một bản đồ đặc trƣng chung; dạng thứ hai, tập dữ liệu sẽ đƣợc phân nhánh dần trong quá trình huấn luyện do đó hình thành một cấu trúc hình cây, với mỗi nút có thể là một nơron hoặc là một mạng Kohonen và đặc trƣng của dữ liệu sẽ đƣợc biểu diễn trên các nút lá. HSOM là một cấu trúc phức tạp do có rất nhiều cách khác nhau để thực hiện chia dữ liệu và chia mạng. Costa đƣa ra một cấu trúc cây phân tầng biểu diễn các cụm dữ liệu, trong đó mỗi nút của cây là một bản đồ Kohonen [6]. Tại mỗi nút, mạng vẫn đƣợc huấn luyện đầy đủ nhƣ SOM gốc, sau đó xây dựng ma trận trực quan U- Matrix [10] và sử dụng thông tin này để hình thành các nút con. Mặc dù giải pháp này đƣợc cho là không hiệu quả vì thực chất tại nút gốc của cây đã thực hiện xong việc huấn luyện và U-Matrix của nút gốc hoàn toàn trực quan đƣợc toàn bộ dữ liệu. Nhƣng phân tích dữ liệu (chia dữ liệu) theo cấu trúc cây là một ý tƣởng phù hợp để cài đặt chƣơng trình xử lý song song. Sau khi nghiên cứu mô hình SOM gốc và một số mô hình cải tiến khác của SOM, chúng tôi nhận thấy có hai vấn đề cần cân nhắc để cải thiện tốc độ tính toán của mạng. Một là giảm thời gian tìm kiếm BMU bằng cách thu hẹp phạm vi tìm kiếm hoặc giảm kích thƣớc ma trận Kohonen. Hai là kết hợp chia dữ liệu (data-partition) và chia mạng (network- partition) để xử lý song song. Bài báo này trình bày ý tƣởng của hai giải pháp: thu hẹp phạm vi tìm kiếm BMU [7] đƣợc đề xuất bởi Teuvo Kohonen và kiến trúc mạng phân tầng HSOM phân chia theo nhóm nơron dựa trên ngƣỡng phân ly [8] do chính nhóm tác giả đề xuất. Đồng thời trình bày các kết quả cài đặt thực nghiệm của hai giải pháp trên. Các phần còn lại của bài báo gồm: phần 2 trình bày thuật toán huấn luyện SOM gốc, phần 3 trình bày giải pháp thu hẹp phạm vi tìm kiếm BMU, phần 4 mô tả kiến trúc mạng phân tầng và cuối cùng đƣa ra một số kết luận về các nội dung đã trình bày. THUẬT TOÁN HỌC CỦA SOM [1] Mạng nơron SOM gồm lớp tín hiệu vào và lớp ra Kohonen. Lớp Kohonen thƣờng đƣợc tổ chức dƣới dạng một ma trận 2 chiều các nơron. Mỗi đơn vị i (nơron) trong lớp Kohonen đƣợc gắn một vector trọng số wi= [wi1, wi2, ,win], với n là kích thƣớc vector đầu vào; wij là trọng số của nơron i ứng với đầu vào j). Quá trình huấn luyện mạng đƣợc lặp nhiều lần cho tới khi thỏa mãn điều kiện dừng (có thể căn cứ trên số lần lặp, số mẫu học, hay độ cân bằng của mạng). Tại lần lặp thứ t thực hiện 3 bƣớc: Bƣớc 1- tìm BMU: chọn ngẫu nhiên một đầu vào v từ tập dữ liệu, duyệt ma trận Kohonen tìm nơron b có hàm khoảng cách dist nhỏ nhất (thƣờng dùng hàm Euclidian). Nơron b đƣợc gọi là BMU.  is || w || min || w ||b i i d t v v    (1) Bƣớc 2- xác định bán kính lân cận của BMU:   0 exp t t           là hàm nội suy bán kính (giảm dần theo số lần lặp t), với 0 là bán kính khởi tạo; hằng số thời gian  0log K    , với K là tổng số lần lặp. Bƣớc 3- cập nhật lại trọng số của các nơron trong bán kính lân cận của BMU theo hƣớng gần hơn với vector đầu vào v:          w 1 w wi i bi it t t h t v t        (2) Trong đó:   0 exp t t           là hàm nội suy tốc độ học, với 0 là giá trị khởi tạo của tốc độ học; hbi(t) là hàm nội suy theo thời gian học, thể hiện sự tác động của khoảng cách đối với quá trình học, đƣợc tính theo công thức     2 2 || || exp 2 b i bi r r h t t         trong đó rb và ri là vị Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 81 trí của nơron b và nơron i trong ma trận Kohonen. Trong bƣớc 1 của thuật toán, với mỗi mẫu đầu vào phải tìm kiếm trên toàn bộ ma trận Kohonen để xác định BMU. Điều này không thực sự phù hợp trong trƣờng hợp tập mẫu nhỏ, phải sử dụng lại nhiều lần để huấn luyện. Giải pháp thu hẹp phạm vi tìm kiếm BMU trong trƣờng hợp này đƣợc trình bày ở phần tiếp theo. THU HẸP PHẠM VI TÌM KIẾM BMU [7] Khi một tập mẫu đƣợc sử dụng lại nhiều lần để huấn luyện mạng thì phạm vi tìm BMU ở những lần huấn luyện sau có thể thu hẹp. Một cách tìm kiếm thông minh là chỉ tìm quanh vị trí của BMU tƣơng ứng với vector mẫu ở lần huấn luyện trƣớc đó. Hình 1. Minh họa giải pháp thu hẹp phạm vi tìm kiếm BMU Với mỗi vector mẫu đầu vào, sau khi xác định đƣợc BMU tiến hành lƣu thông tin vị trí BMU của mẫu đó. Thông tin này sẽ đƣợc sử dụng để xác định khu vực tìm kiếm BMU cho chính mẫu đó trong lần huấn luyện tiếp theo. Hình 1 minh họa việc bổ sung thêm một trƣờng Pointer để lƣu vị trí BMU. Ở lần huấn luyện sau của vector mẫu vị trí đã lƣu trữ sẽ đƣợc kiểm tra trƣớc, sau đó mới kiểm tra các vị trí xung quanh. Chúng tôi đã tiến hành cài đặt, thử nghiệm giải pháp thu hẹp phạm vi tìm kiếm BMU để so sánh kết quả với thuật toán SOM gốc. Với dữ liệu vào ảnh số, mạng đƣợc thiết kế có 3 đầu vào tƣơng ứng với 3 màu R, G, B của mỗi điểm ảnh, ma trận Kohonen vuông 30x30, giá trị phạm vi tìm kiếm đƣợc thiết lập bằng giá trị bán kính lân cận. Hình 2 trình bày kết quả thử nghiệm với cùng một ảnh mẫu kích thƣớc 141x140, thực hiện huấn luyện mạng với số lần lặp lại tập mẫu khác nhau. Nếu sử dụng tập mẫu 1 lần thì giải pháp cải tiến lâu hơn thuật toán gốc do phải tổ chức dữ liệu để lƣu trƣờng Pointer (giá trị khác biệt tƣơng đối nhỏ). Nhƣng khi số lần sử dụng tập mẫu càng tăng thì thời gian huấn luyện mạng càng giảm do vị trí tìm kiếm BMU đƣợc xác định theo trƣờng Pointer và chỉ trong phạm vi bằng bán kính lân cận tại thời điểm đó. Chúng tôi đã thử nghiệm trên nhiều ảnh khác nhau đều cho kết quả tƣơng tự. MÔ HÌNH HSOM SỬ DỤNG NGƢỠNG PHÂN LY Chúng tôi đề xuất một mô hình mạng HSOM phân tầng theo nhóm nơron. Mô hình mạng này xuất phát từ ý tƣởng ban đầu phân chia dữ liệu thành các cụm lớn, từ mỗi cụm lớn tiếp tục chia thành các cụm nhỏ, và từ các cụm nhỏ lại tiếp tục chia thành các cụm nhỏ hơn nữa. Trong đó, mỗi nút của cây đƣợc thiết kế là một mạng nơron SOM, cho phép phân cụm dữ liệu chi tiết dần từ nút gốc tới nút lá. Một nút cha sau khi đƣợc huấn luyện sẽ phân tập dữ liệu dùng để huấn luyện nó thành các tập con. Mỗi tập dữ liệu con lại tiếp tục đƣợc dùng để huấn luyện nút con tƣơng ứng đƣợc sinh ra. Chúng tôi đã áp dụng kỹ thuật phân nhóm nhanh các nơron ngay trong quá trình huấn luyện mạng dựa vào ngƣỡng phân ly T [9], do vậy quy trình áp dụng SOM cho bài toán phân cụm không cần thực hiện giai đoạn 2 đã nêu ở trên. Cơ sở của việc phân chia này dựa vào ngƣỡng phân ly T, với   , ax || ||i j i j T m v v   , trong đó là giá trị giới hạn về độ phi tƣơng tự của các phần tử trong cùng một cụm,   , ax || ||i j i j m v v là giá trị khác biệt lớn nhất giữa hai phần tử bất kỳ trên toàn tập dữ liệu. Cây sẽ tự phát triển và đƣợc huấn luyện theo từng tầng. Mỗi tầng, huấn luyện tất cả các nút lá với cùng một ngƣỡng T, tầng kế tiếp T giảm đi một giá trị , cho tới khi T= . Hình 3 minh họa kiến trúc huấn luyện gồm m tầng, tầng đầu tiên đƣợc huấn luyện với ngƣỡng  1 , ax || ||i j i j T T m v v   , ở mỗi tầng T giảm đi một giá trị cho tới khi đạt ngƣỡng . Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 82 Ảnh gốc Số lần sử dụng tập mẫu Thuật toán SOM gốc Giải pháp thu hẹp phạm vi tìm kiếm BMU Huấn luyện(ms) Ảnh kết quả Huấn luyện(ms) Ảnh kết quả 1 2 5 10 2683.23 4965.21 10416.75 21038.49 2934.77 4394.72 9053.87 18383.06 Hình 2. Thực nghiệm giải pháp thu hẹp phạm vi tìm kiếm BMU Tầng đầu tiên, tập dữ liệu ban đầu I đƣợc huấn luyện bởi Kohonen K1 có kích thƣớc (n n) và ngƣỡng phân ly là T1. Kết quả thu đƣợc k tập con của I={I1, I2,, Ik}. Tầng thứ hai, mỗi tập con I1, I2,, Ik đƣợc huấn luyện bởi các Kohonen con tƣơng ứng KI1, KI2,, KIk với ngƣỡng phân ly giảm T2=T1- . Nhƣ vậy mỗi tập Ii (với i=1..k) đƣợc huấn luyện bởi KIi lại đƣợc phân thành các tập con Ii1, Ii2, Ở các tầng tiếp theo, lặp lại việc giảm T và huấn luyện mỗi nút con bằng tập con tƣơng ứng của nó, cho tới khi T= . Kích thƣớc của các nút con sẽ giảm dần phụ thuộc vào kích thƣớc nút cha và tỉ số giữa số phần tử trong tập con dùng để huấn luyện nó với số phần tử dùng để huấn luyện nút cha. Gọi nchild là kích thƣớc nút con, ta có: ar ar | | | | child child p ent p ent I n n I        , trong đó: |.| thể hiện số phần tử trong một tập hợp, điều chỉnh kích thƣớc nút con không giảm quá nhiều so với nút cha (chúng tôi thử nghiệm với =0.3). Do nút gốc và các nút trung gian chỉ có vai trò định hƣớng việc phân chia dữ liệu. Nên kích thƣớc nút gốc (ma trận Kohonen K1) không cần đủ lớn để mô tả đƣợc hết đặc trƣng của tập dữ liệu. Điều này làm giảm đáng kể thời gian huấn luyện tại mỗi nút. Ngoài ra, dữ liệu đƣợc phân mảnh theo cấu trúc cây để huấn luyện song song trên các mạng Kohonen riêng biệt nên thời gian huấn luyện và áp dụng mạng sau huấn luyện nhanh hơn mô hình SOM gốc. Bảng dƣới đây trình bày kết quả thử nghiệm. Mạng SOM gốc đƣợc thiết kế tƣơng tự phần 3, mô hình cây phân tầng kích thƣớc Kohonen là 11x11 và T=30 (với 30<=T<=120). Các tham số khác đƣợc điều chỉnh bằng cách “thử sai” nhiều lần để kết quả hình thành cụm tƣơng đƣơng, từ đó đánh giá hiệu quả về thời gian thực hiện. Trong mọi trƣờng hợp, thời gian huấn luyện và thời gian áp dụng mạng đã huấn luyện để phân cụm của mô hình cây phân tầng đều nhanh hơn. Hai bức ảnh đầu tiên có kích thƣớc khoảng 26 nghìn điểm ảnh mô hình phân tầng có thời gian huấn luyện nhanh hơn khoảng 2.3 đến 3.8 lần, thời gian áp dụng nhanh hơn khoảng 2.5 lần. Hai bức ảnh sau (số điểm ảnh trên 100 nghìn) mô hình phân tầng có thời gian huấn luyện nhanh hơn khoảng 4.8 đến 5.4 lần, thời gian áp dụng nhanh hơn 3 đến 3.5 lần. Điều này thể hiện rằng ƣu thế về tốc độ của mô hình phân tầng càng tăng khi kích thƣớc tập dữ liệu lớn. Chúng tôi đã thử nghiệm với nhiều ảnh đầu vào khác nhau đều cho kết quả tƣơng tự.  1 , ax || ||i j i j T m v v  T2=T1- Tk=Tk-1 - Tm= Hình 3. Minh họa mô hình huấn luyện cây phân tầng Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 83 Ảnh gốc Lầ n Mô hình SOM gốc Mô hình cây phân tầng Thời gian (ms) Ảnh kết quả/số cụm Thời gian (ms) Ảnh kết quả/ Số cụm Huấn luyện Áp dụng phân cụm Huấn luyện Áp dụng phân cụm 1 2 3 4 5 4747.27 4627.26 4759.54 4813.65 4687.25 1813.10 1897.45 1854.32 1864.35 1824.54 1974.32 2012.35 1987.32 2103.54 2014.36 623.03 708.25 732.12 698.65 743.25 163X159 4726.99 1850.75 111-130 2018.38 701.06 127-155 1 2 3 4 5 4655.26 4568.25 4687.26 4756.21 4587.25 1592.35 1685.32 1672.32 1612.32 1586.21 1163.06 1254.32 1198.32 1245.35 1234.15 679.03 684.35 687.32 702.35 624.21 160X160 4650.85 1629.70 22-29 1219.04 675.45 29-35 1 2 3 4 5 19665.56 19565.69 19615.58 19625.76 19584.84 6833.26 6696.21 6787.65 6681.84 6904.65 4025.32 4059.23 3998.26 4065.32 4100.23 2313.25 2268.12 2298.32 2274.54 2289.78 350x300 19611.49 6780.72 32-36 4049.67 2288.80 31-36 1 2 3 4 5 41307.32 42563.24 43124.87 40154.65 42564.65 14346.54 14687.25 14753.24 13968.24 14885.98 7738.44 7954.32 7542.21 7652.32 7764.24 4107.23 4321.25 4215.36 4198.25 4253.35 550x382 41942.95 14528.25 80-110 7730.31 4219.09 77-109 Hình 4. Kết quả thực nghiệm so sánh giữa mô hình cây phân tầng và SOM chuẩn KẾT LUẬN Giải pháp thu hẹp phạm vi tìm kiếm BMU đã trình bày ở phần 3 khá hay, tuy nhiên chỉ có hiệu quả trong trƣờng hợp tập mẫu đƣợc dùng lặp lại nhiều lần để huấn luyện mạng. Điều này chỉ phù hợp trong các bài toán có số lƣợng phần tử của tập mẫu ít. Trong những bài toán có tập mẫu đủ lớn để mạng đạt trạng thái cân bằng (không cần lặp lại huấn luyện nhiều lần bằng tập mẫu) hoặc tập dữ liệu cần phân nhóm lớn thì giải pháp xử lý song song dựa trên kiến trúc mạng phân tầng đã nêu trong phần 4 đạt hiệu quả hơn, bởi hai lý do chính: một là giảm đƣợc kích thƣớc ma trận kohonen (do các đặc trƣng của dữ liệu không biểu diễn trên một ma trận Kohonen mà đƣợc biểu diễn trên các ma trận Kohonen con là các nút lá của cây huấn luyện), hai là cho phép phân mảnh dữ liệu để huấn luyện song song trên nhiều mạng nơron SOM khác nhau. Ngoài ra, do mô hình huấn luyện đƣợc biểu diễn theo cấu trúc cây nên thời gian áp dụng mạng đã huấn luyện để phân cụm dữ liệu cũng giảm đáng kể. Tuy nhiên, với mô hình cây phân tầng việc xác định một cấu hình mạng phù hợp là một vấn đề khó. Với mỗi dạng bài toán cần nhiều lần “thử sai” để xác định cấu hình phù hợp nhất. Đây là vấn đề cần tiếp tục nghiên cứu. TÀI LIỆU THAM KHẢO 1. Teuvo Kohonen, (2001) “Self-Organizing Maps”, Springer, 3rd Edition, pp. 105-176. 2. J. Han and M. Kamber, (2001) “Data Mining - Concepts and Techniques”, Morgan Kaufmann, Chapter 8,. 3. Silva, Marques, (2007) “A hybrid parallel SOM algorithm for large maps in data-mining”, 13th Portuguese conference on artificial intelligence Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 84 (EPIA07), workshop on business intelligence, Guimaraes, Portugal, IEEE. 4. Roberto Henriques, Victor Lobo, Fernando Bação, (2012) ”Spatial Clustering Using Hierarchical SOM”, ISBN 978-953-51-0862-7. 5. Jorma Laaksonen, Markus Koskela, Erkki Oja, (1999) “Application of Tree Structured Self- Organizing Maps in Content-Based Image Retrieval”, Proceedings of ICANN’99, Edinburgh, UK, 9th. 6. Costa, Marcio, (2001) “A new tree-structured self- organizing map for data analysis”, Proceedings. IJCNN '01. International Joint Conference on. 7. Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salo-järvi, Jukka Honkela, Vesa Paatero, and Antti Saarela, (2000) “Self-organization of a massive document collection”, IEEE Transac- tions on Neural Networks, 11:57485. 8. Le Anh Tu, Nguyen Quang Hoan, Le Son Thai, (2013) “Clustering Hierarchical Data Using Som Neural Network”, ICCASA 2012, LNICST 109, pp. 282–289. 9. Lê Anh Tú, Nguyễn Quang Hoan, Lê Sơn Thái, (2011) “Cải tiến giải thuật mạng nơron som áp dụng cho bài toán phân cụm ảnh màu”, Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011, Bài 4, tr. 54-63. 10. Alfred Ultsch and H. Peter Siemon, (1990) “Kohonen's self-organizing feature maps for exploratory data analysis”, In Proceedings of the International Neural Network Conference (INNC'90), pages 305-308. Kluwer. 11. https://rtmath.net/help/html/29f7cb00-39a1- 4fc0-af60-52925f074edd.htm 12. ualisations.html SUMMARY SOME IMPROVED SOLUTIONS TO SPEED UP THE SOM NEURAL NETWORK ALGORITHM Le Anh Tu 1* , Le Son Thai 1 , Nguyen Quang Hoan 2 1College of Information and Communication Technology – TNU 2Posts and Telecommunications Institute of Technology SOM neural network is used mainly in data clustering problem. However, the input data set for this problem is often large which influences the computation time. This paper presents two solutions in oder to improve the network computation time including: narrowing your searching threshold for winning neuron and processing data parallelly based on layered network architecture. In addition, the paper presents the results of experimental settings and evaluates the effectiveness of each solution. Keywords: SOM, Kohonen, BMU, hierarchical, data clustering Ngày nhận bài:25/01/2014; Ngày phản biện:10/02/2014; Ngày duyệt đăng: 26/02/2014 Phản biện khoa học: TS. Vũ Đức Thái – Trường ĐH Công nghệ Thông tin & Truyền thông - ĐHTN * Tel: 0989 199088, Email: latu@ictu.edu.vn

Các file đính kèm theo tài liệu này:

brief_42080_45927_6620149485415_5139_2048642.pdf