KẾT LUẬN
Giải pháp thu hẹp phạm vi tìm kiếm BMU đã
trình bày ở phần 3 khá hay, tuy nhiên chỉ có
hiệu quả trong trƣờng hợp tập mẫu đƣợc dùng
lặp lại nhiều lần để huấn luyện mạng. Điều
này chỉ phù hợp trong các bài toán có số
lƣợng phần tử của tập mẫu ít.
Trong những bài toán có tập mẫu đủ lớn để
mạng đạt trạng thái cân bằng (không cần lặp
lại huấn luyện nhiều lần bằng tập mẫu) hoặc
tập dữ liệu cần phân nhóm lớn thì giải pháp
xử lý song song dựa trên kiến trúc mạng phân
tầng đã nêu trong phần 4 đạt hiệu quả hơn,
bởi hai lý do chính: một là giảm đƣợc kích
thƣớc ma trận kohonen (do các đặc trƣng của
dữ liệu không biểu diễn trên một ma trận
Kohonen mà đƣợc biểu diễn trên các ma trận
Kohonen con là các nút lá của cây huấn
luyện), hai là cho phép phân mảnh dữ liệu để
huấn luyện song song trên nhiều mạng nơron
SOM khác nhau. Ngoài ra, do mô hình huấn
luyện đƣợc biểu diễn theo cấu trúc cây nên
thời gian áp dụng mạng đã huấn luyện để
phân cụm dữ liệu cũng giảm đáng kể. Tuy
nhiên, với mô hình cây phân tầng việc xác
định một cấu hình mạng phù hợp là một vấn
đề khó. Với mỗi dạng bài toán cần nhiều lần
“thử sai” để xác định cấu hình phù hợp nhất.
Đây là vấn đề cần tiếp tục nghiên cứu.
6 trang |
Chia sẻ: thucuc2301 | Lượt xem: 553 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Một số giải pháp cải tiến nhằm tăng tốc độ thuật toán mạng Nơron SOM - Lê Anh Tú, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
79
MỘT SỐ GIẢI PHÁP CẢI TIẾN
NHẰM TĂNG TỐC ĐỘ THUẬT TOÁN MẠNG NƠRON SOM
Lê Anh Tú
1*, Lê Sơn Thái1, Nguyễn Quang Hoan2
1Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên,
2Học viện Công nghệ Bưu chính Viễn thông
TÓM TẮT
Mạng nơron SOM đƣợc ứng dụng chủ yếu trong các bài toán phân cụm dữ liệu. Tuy nhiên, tập dữ
liệu vào cho những bài toán này thƣờng rất lớn ảnh hƣớng tới thời gian tính toán. Bài báo này trình
bày hai giải pháp để cải thiện thời gian tính toán của mạng gồm: thu hẹp phạm vi tìm kiếm nơron
chiến thắng và xử lý dữ liệu song song dựa trên kiến trúc mạng phân tầng. Đồng thời trình bày kết
quả cài đặt thử nghiệm và đánh giá hiệu quả của mỗi giải pháp.
Từ khóa: SOM, Kohonen, BMU, phân tầng, phân cụm dữ liệu
GIỚI THIỆU*
Mạng nơron SOM đƣợc Teuvo Kohonen phát
triển vào những năm 80 [1]. Đây là một công
cụ thích hợp để giải bài toán phân cụm dữ
liệu, một bƣớc tiền xử lý quan trọng trong
khai phá dữ liệu [2]. Khi áp dụng mạng nơron
SOM để phân cụm dữ liệu, cần thực hiện theo
3 giai đoạn:
Giai đoạn 1: Huấn luyện mạng bằng tập dữ
liệu mẫu. Trong trƣờng hợp tập dữ liệu huấn
luyện chƣa đủ lớn thì quá trình huấn luyện có
thể đƣợc lặp lại nhiều lần với cùng một tập
mẫu cho tới khi mạng đạt trạng thái cân bằng.
Giai đoạn 2: Phân cụm nơron (thƣờng sử
dụng thuật toán tích tụ [10]) hoặc trực quan
mạng để quan sát [11].
Giai đoạn 3: Áp dụng mạng đã huấn luyện để
phân cụm (với mỗi phần tử trong tập dữ liệu
cần phân cụm, tìm trên ma trận Kohonen
nơron có đặc trƣng khớp nhất và gán nhãn
phần tử vào nơron này).
Tuy nhiên, thuật toán SOM đòi hỏi thời gian
tính toán lớn (cả thời gian huấn luyện và áp
dụng mạng đã huấn luyện) vì một số lý do sau:
Thứ nhất, tập dữ liệu huấn luyện hoặc số lần
huấn luyện phải đủ lớn để mạng đạt đƣợc
trạng thái cân bằng.
Thứ hai, dữ liệu đƣợc đƣa vào mạng một cách
tuần tự, sau đó với mỗi phần tử dữ liệu đƣợc
*
Tel: 0989 199088, Email: latu@ictu.edu.vn
đƣa vào lại phải tìm kiếm tuần tự trên toàn bộ
ma trận Kohonen để xác định nơron chiến
thắng (BMU-Best Matching Unit).
Thứ ba, trong các bài toán khai phá dữ liệu
tập dữ liệu cần đánh giá thƣờng rất lớn. Do
vậy kích thƣớc ma trận Kohonen phải đủ lớn
để mô tả đƣợc hết đặc trƣng của dữ liệu,
thƣờng là hàng nghìn nơron.
Hiện tại, đã có nhiều nghiên cứu về vấn đề
này, chẳng hạn: thuật toán Batch SOM [3]
tăng tốc độ huấn luyện bằng cách chỉ cập nhật
trọng số của các nơron vào cuối quá trình
huấn luyện (sau khi duyệt hết các mẫu huấn
luyện); Tree-Structured SOM (TS-SOM) [5]
là một cấu trúc huấn luyện và tìm kiếm BMU
dạng cây, trong đó mỗi nút trên cây là một
nơron. Số lƣợng nút con của mỗi nút bằng
nhau và tăng theo hàm mũ. Các nút cùng cấp
tạo thành một lớp (layer), lớp trên đƣợc dùng
để huấn luyện lớp dƣới. Ví dụ, lớp đầu tiên có
4 nút (nơron), mỗi nút có 4 nút con, vậy lớp
thứ hai có 16 nút, lớp thứ 3 có 64 nút,... nhƣ
vậy thời gian huấn luyện nhanh hơn do việc
tìm BMU tại mỗi bƣớc huấn luyện đƣợc thực
hiện theo các nhánh của cây. Tuy nhiên cấu
trúc này vẫn còn nhiều hạn chế do dữ liệu vẫn
đƣợc đƣa vào và xử lý trong mạng một cách
tuần tự. Mô hình mạng nơron SOM phân tầng
(Hierarchical SOMs - HSOM) [4] với tƣ
tƣởng kết hợp chia dữ liệu (chia tập dữ liệu
thành nhiều tập con) và chia mạng (chia ma
trận Kohonen thành nhiều nhóm nhỏ các
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
80
nơron, mỗi nhóm nhỏ này đƣợc coi nhƣ một
mạng con) nhằm giảm thời gian tìm kiếm
BMU và xử lý dữ liệu một cách đồng thời.
HSOM có hai dạng chính: dạng thứ nhất,
ngay từ đầu dữ liệu đƣợc chia thành nhiều tập
con để huấn luyện trên nhiều mạng sau đó
tổng hợp các kết quả huấn luyện vào một bản
đồ đặc trƣng chung; dạng thứ hai, tập dữ liệu
sẽ đƣợc phân nhánh dần trong quá trình huấn
luyện do đó hình thành một cấu trúc hình cây,
với mỗi nút có thể là một nơron hoặc là một
mạng Kohonen và đặc trƣng của dữ liệu sẽ
đƣợc biểu diễn trên các nút lá. HSOM là một
cấu trúc phức tạp do có rất nhiều cách khác
nhau để thực hiện chia dữ liệu và chia mạng.
Costa đƣa ra một cấu trúc cây phân tầng biểu
diễn các cụm dữ liệu, trong đó mỗi nút của
cây là một bản đồ Kohonen [6]. Tại mỗi nút,
mạng vẫn đƣợc huấn luyện đầy đủ nhƣ SOM
gốc, sau đó xây dựng ma trận trực quan U-
Matrix [10] và sử dụng thông tin này để hình
thành các nút con. Mặc dù giải pháp này đƣợc
cho là không hiệu quả vì thực chất tại nút gốc
của cây đã thực hiện xong việc huấn luyện và
U-Matrix của nút gốc hoàn toàn trực quan
đƣợc toàn bộ dữ liệu. Nhƣng phân tích dữ
liệu (chia dữ liệu) theo cấu trúc cây là một ý
tƣởng phù hợp để cài đặt chƣơng trình xử lý
song song.
Sau khi nghiên cứu mô hình SOM gốc và một
số mô hình cải tiến khác của SOM, chúng tôi
nhận thấy có hai vấn đề cần cân nhắc để cải
thiện tốc độ tính toán của mạng. Một là giảm
thời gian tìm kiếm BMU bằng cách thu hẹp
phạm vi tìm kiếm hoặc giảm kích thƣớc ma
trận Kohonen. Hai là kết hợp chia dữ liệu
(data-partition) và chia mạng (network-
partition) để xử lý song song.
Bài báo này trình bày ý tƣởng của hai giải
pháp: thu hẹp phạm vi tìm kiếm BMU [7]
đƣợc đề xuất bởi Teuvo Kohonen và kiến trúc
mạng phân tầng HSOM phân chia theo nhóm
nơron dựa trên ngƣỡng phân ly [8] do chính
nhóm tác giả đề xuất. Đồng thời trình bày các
kết quả cài đặt thực nghiệm của hai giải pháp
trên. Các phần còn lại của bài báo gồm: phần
2 trình bày thuật toán huấn luyện SOM gốc,
phần 3 trình bày giải pháp thu hẹp phạm vi
tìm kiếm BMU, phần 4 mô tả kiến trúc mạng
phân tầng và cuối cùng đƣa ra một số kết luận
về các nội dung đã trình bày.
THUẬT TOÁN HỌC CỦA SOM [1]
Mạng nơron SOM gồm lớp tín hiệu vào và
lớp ra Kohonen. Lớp Kohonen thƣờng đƣợc
tổ chức dƣới dạng một ma trận 2 chiều các
nơron. Mỗi đơn vị i (nơron) trong lớp
Kohonen đƣợc gắn một vector trọng số wi=
[wi1, wi2, ,win], với n là kích thƣớc vector
đầu vào; wij là trọng số của nơron i ứng với
đầu vào j). Quá trình huấn luyện mạng đƣợc
lặp nhiều lần cho tới khi thỏa mãn điều kiện
dừng (có thể căn cứ trên số lần lặp, số mẫu
học, hay độ cân bằng của mạng). Tại lần lặp
thứ t thực hiện 3 bƣớc:
Bƣớc 1- tìm BMU: chọn ngẫu nhiên một đầu
vào v từ tập dữ liệu, duyệt ma trận Kohonen
tìm nơron b có hàm khoảng cách dist nhỏ nhất
(thƣờng dùng hàm Euclidian). Nơron b đƣợc
gọi là BMU.
is || w || min || w ||b i
i
d t v v (1)
Bƣớc 2- xác định bán kính lân cận của BMU:
0 exp
t
t
là hàm nội suy bán kính
(giảm dần theo số lần lặp t), với 0 là bán
kính khởi tạo; hằng số thời gian
0log
K
,
với K là tổng số lần lặp.
Bƣớc 3- cập nhật lại trọng số của các nơron
trong bán kính lân cận của BMU theo hƣớng
gần hơn với vector đầu vào v:
w 1 w wi i bi it t t h t v t (2)
Trong đó: 0 exp
t
t
là hàm nội suy
tốc độ học, với 0 là giá trị khởi tạo của tốc
độ học; hbi(t) là hàm nội suy theo thời gian
học, thể hiện sự tác động của khoảng cách đối
với quá trình học, đƣợc tính theo công thức
2
2
|| ||
exp
2
b i
bi
r r
h t
t
trong đó rb và ri là vị
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
81
trí của nơron b và nơron i trong ma trận
Kohonen.
Trong bƣớc 1 của thuật toán, với mỗi mẫu
đầu vào phải tìm kiếm trên toàn bộ ma trận
Kohonen để xác định BMU. Điều này không
thực sự phù hợp trong trƣờng hợp tập mẫu
nhỏ, phải sử dụng lại nhiều lần để huấn luyện.
Giải pháp thu hẹp phạm vi tìm kiếm BMU
trong trƣờng hợp này đƣợc trình bày ở phần
tiếp theo.
THU HẸP PHẠM VI TÌM KIẾM BMU [7]
Khi một tập mẫu đƣợc sử dụng lại nhiều lần
để huấn luyện mạng thì phạm vi tìm BMU ở
những lần huấn luyện sau có thể thu hẹp. Một
cách tìm kiếm thông minh là chỉ tìm quanh vị
trí của BMU tƣơng ứng với vector mẫu ở lần
huấn luyện trƣớc đó.
Hình 1. Minh họa giải pháp thu hẹp phạm vi tìm
kiếm BMU
Với mỗi vector mẫu đầu vào, sau khi xác định
đƣợc BMU tiến hành lƣu thông tin vị trí
BMU của mẫu đó. Thông tin này sẽ đƣợc sử
dụng để xác định khu vực tìm kiếm BMU cho
chính mẫu đó trong lần huấn luyện tiếp theo.
Hình 1 minh họa việc bổ sung thêm một
trƣờng Pointer để lƣu vị trí BMU. Ở lần huấn
luyện sau của vector mẫu vị trí đã lƣu trữ sẽ
đƣợc kiểm tra trƣớc, sau đó mới kiểm tra các
vị trí xung quanh.
Chúng tôi đã tiến hành cài đặt, thử nghiệm
giải pháp thu hẹp phạm vi tìm kiếm BMU để
so sánh kết quả với thuật toán SOM gốc. Với
dữ liệu vào ảnh số, mạng đƣợc thiết kế có 3
đầu vào tƣơng ứng với 3 màu R, G, B của
mỗi điểm ảnh, ma trận Kohonen vuông
30x30, giá trị phạm vi tìm kiếm đƣợc thiết lập
bằng giá trị bán kính lân cận. Hình 2 trình bày
kết quả thử nghiệm với cùng một ảnh mẫu
kích thƣớc 141x140, thực hiện huấn luyện
mạng với số lần lặp lại tập mẫu khác nhau.
Nếu sử dụng tập mẫu 1 lần thì giải pháp cải
tiến lâu hơn thuật toán gốc do phải tổ chức dữ
liệu để lƣu trƣờng Pointer (giá trị khác biệt
tƣơng đối nhỏ). Nhƣng khi số lần sử dụng tập
mẫu càng tăng thì thời gian huấn luyện mạng
càng giảm do vị trí tìm kiếm BMU đƣợc xác
định theo trƣờng Pointer và chỉ trong phạm vi
bằng bán kính lân cận tại thời điểm đó. Chúng
tôi đã thử nghiệm trên nhiều ảnh khác nhau
đều cho kết quả tƣơng tự.
MÔ HÌNH HSOM SỬ DỤNG NGƢỠNG
PHÂN LY
Chúng tôi đề xuất một mô hình mạng HSOM
phân tầng theo nhóm nơron. Mô hình mạng
này xuất phát từ ý tƣởng ban đầu phân chia
dữ liệu thành các cụm lớn, từ mỗi cụm lớn
tiếp tục chia thành các cụm nhỏ, và từ các
cụm nhỏ lại tiếp tục chia thành các cụm nhỏ
hơn nữa. Trong đó, mỗi nút của cây đƣợc
thiết kế là một mạng nơron SOM, cho phép
phân cụm dữ liệu chi tiết dần từ nút gốc tới
nút lá. Một nút cha sau khi đƣợc huấn luyện
sẽ phân tập dữ liệu dùng để huấn luyện nó
thành các tập con. Mỗi tập dữ liệu con lại tiếp
tục đƣợc dùng để huấn luyện nút con tƣơng
ứng đƣợc sinh ra. Chúng tôi đã áp dụng kỹ
thuật phân nhóm nhanh các nơron ngay trong
quá trình huấn luyện mạng dựa vào ngƣỡng
phân ly T [9], do vậy quy trình áp dụng SOM
cho bài toán phân cụm không cần thực hiện
giai đoạn 2 đã nêu ở trên. Cơ sở của việc phân
chia này dựa vào ngƣỡng phân ly T, với
,
ax || ||i j
i j
T m v v , trong đó là giá trị
giới hạn về độ phi tƣơng tự của các phần tử
trong cùng một cụm,
,
ax || ||i j
i j
m v v là giá trị
khác biệt lớn nhất giữa hai phần tử bất kỳ trên
toàn tập dữ liệu.
Cây sẽ tự phát triển và đƣợc huấn luyện theo
từng tầng. Mỗi tầng, huấn luyện tất cả các nút
lá với cùng một ngƣỡng T, tầng kế tiếp T
giảm đi một giá trị , cho tới khi T= . Hình 3
minh họa kiến trúc huấn luyện gồm m tầng,
tầng đầu tiên đƣợc huấn luyện với ngƣỡng
1
,
ax || ||i j
i j
T T m v v , ở mỗi tầng T giảm đi
một giá trị cho tới khi đạt ngƣỡng .
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
82
Ảnh gốc
Số lần sử
dụng tập
mẫu
Thuật toán SOM gốc
Giải pháp thu hẹp phạm vi
tìm kiếm BMU
Huấn
luyện(ms)
Ảnh kết quả
Huấn
luyện(ms)
Ảnh kết quả
1
2
5
10
2683.23
4965.21
10416.75
21038.49
2934.77
4394.72
9053.87
18383.06
Hình 2. Thực nghiệm giải pháp thu hẹp phạm vi tìm kiếm BMU
Tầng đầu tiên, tập dữ liệu ban đầu I đƣợc
huấn luyện bởi Kohonen K1 có kích thƣớc
(n n) và ngƣỡng phân ly là T1. Kết quả thu
đƣợc k tập con của I={I1, I2,, Ik}. Tầng thứ
hai, mỗi tập con I1, I2,, Ik đƣợc huấn luyện
bởi các Kohonen con tƣơng ứng KI1, KI2,,
KIk với ngƣỡng phân ly giảm T2=T1- . Nhƣ
vậy mỗi tập Ii (với i=1..k) đƣợc huấn luyện
bởi KIi lại đƣợc phân thành các tập con Ii1,
Ii2, Ở các tầng tiếp theo, lặp lại việc giảm T
và huấn luyện mỗi nút con bằng tập con
tƣơng ứng của nó, cho tới khi T= .
Kích thƣớc của các nút con sẽ giảm dần phụ
thuộc vào kích thƣớc nút cha và tỉ số giữa số
phần tử trong tập con dùng để huấn luyện nó
với số phần tử dùng để huấn luyện nút cha.
Gọi nchild là kích thƣớc nút con, ta có:
ar
ar
| |
| |
child
child p ent
p ent
I
n n
I
, trong đó: |.| thể hiện
số phần tử trong một tập hợp, điều chỉnh
kích thƣớc nút con không giảm quá nhiều so
với nút cha (chúng tôi thử nghiệm với =0.3).
Do nút gốc và các nút trung gian chỉ có vai
trò định hƣớng việc phân chia dữ liệu. Nên
kích thƣớc nút gốc (ma trận Kohonen K1)
không cần đủ lớn để mô tả đƣợc hết đặc trƣng
của tập dữ liệu. Điều này làm giảm đáng kể
thời gian huấn luyện tại mỗi nút. Ngoài ra, dữ
liệu đƣợc phân mảnh theo cấu trúc cây để
huấn luyện song song trên các mạng Kohonen
riêng biệt nên thời gian huấn luyện và áp
dụng mạng sau huấn luyện nhanh hơn mô
hình SOM gốc.
Bảng dƣới đây trình bày kết quả thử nghiệm.
Mạng SOM gốc đƣợc thiết kế tƣơng tự phần
3, mô hình cây phân tầng kích thƣớc Kohonen
là 11x11 và T=30 (với 30<=T<=120). Các
tham số khác đƣợc điều chỉnh bằng cách “thử
sai” nhiều lần để kết quả hình thành cụm
tƣơng đƣơng, từ đó đánh giá hiệu quả về thời
gian thực hiện.
Trong mọi trƣờng hợp, thời gian huấn luyện
và thời gian áp dụng mạng đã huấn luyện để
phân cụm của mô hình cây phân tầng đều
nhanh hơn. Hai bức ảnh đầu tiên có kích
thƣớc khoảng 26 nghìn điểm ảnh mô hình
phân tầng có thời gian huấn luyện nhanh hơn
khoảng 2.3 đến 3.8 lần, thời gian áp dụng
nhanh hơn khoảng 2.5 lần. Hai bức ảnh sau
(số điểm ảnh trên 100 nghìn) mô hình phân
tầng có thời gian huấn luyện nhanh hơn
khoảng 4.8 đến 5.4 lần, thời gian áp dụng
nhanh hơn 3 đến 3.5 lần. Điều này thể hiện
rằng ƣu thế về tốc độ của mô hình phân tầng
càng tăng khi kích thƣớc tập dữ liệu lớn.
Chúng tôi đã thử nghiệm với nhiều ảnh đầu
vào khác nhau đều cho kết quả tƣơng tự.
1
,
ax || ||i j
i j
T m v v
T2=T1-
Tk=Tk-1 -
Tm=
Hình 3. Minh họa mô hình huấn luyện
cây phân tầng
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
83
Ảnh gốc
Lầ
n
Mô hình SOM gốc Mô hình cây phân tầng
Thời gian (ms)
Ảnh kết
quả/số cụm
Thời gian (ms)
Ảnh kết
quả/ Số
cụm
Huấn
luyện
Áp dụng
phân cụm
Huấn
luyện
Áp dụng
phân
cụm
1
2
3
4
5
4747.27
4627.26
4759.54
4813.65
4687.25
1813.10
1897.45
1854.32
1864.35
1824.54
1974.32
2012.35
1987.32
2103.54
2014.36
623.03
708.25
732.12
698.65
743.25
163X159 4726.99 1850.75 111-130 2018.38 701.06 127-155
1
2
3
4
5
4655.26
4568.25
4687.26
4756.21
4587.25
1592.35
1685.32
1672.32
1612.32
1586.21
1163.06
1254.32
1198.32
1245.35
1234.15
679.03
684.35
687.32
702.35
624.21
160X160 4650.85 1629.70 22-29 1219.04 675.45 29-35
1
2
3
4
5
19665.56
19565.69
19615.58
19625.76
19584.84
6833.26
6696.21
6787.65
6681.84
6904.65
4025.32
4059.23
3998.26
4065.32
4100.23
2313.25
2268.12
2298.32
2274.54
2289.78
350x300 19611.49 6780.72 32-36 4049.67 2288.80 31-36
1
2
3
4
5
41307.32
42563.24
43124.87
40154.65
42564.65
14346.54
14687.25
14753.24
13968.24
14885.98
7738.44
7954.32
7542.21
7652.32
7764.24
4107.23
4321.25
4215.36
4198.25
4253.35
550x382 41942.95 14528.25 80-110 7730.31 4219.09 77-109
Hình 4. Kết quả thực nghiệm so sánh giữa mô hình cây phân tầng và SOM chuẩn
KẾT LUẬN
Giải pháp thu hẹp phạm vi tìm kiếm BMU đã
trình bày ở phần 3 khá hay, tuy nhiên chỉ có
hiệu quả trong trƣờng hợp tập mẫu đƣợc dùng
lặp lại nhiều lần để huấn luyện mạng. Điều
này chỉ phù hợp trong các bài toán có số
lƣợng phần tử của tập mẫu ít.
Trong những bài toán có tập mẫu đủ lớn để
mạng đạt trạng thái cân bằng (không cần lặp
lại huấn luyện nhiều lần bằng tập mẫu) hoặc
tập dữ liệu cần phân nhóm lớn thì giải pháp
xử lý song song dựa trên kiến trúc mạng phân
tầng đã nêu trong phần 4 đạt hiệu quả hơn,
bởi hai lý do chính: một là giảm đƣợc kích
thƣớc ma trận kohonen (do các đặc trƣng của
dữ liệu không biểu diễn trên một ma trận
Kohonen mà đƣợc biểu diễn trên các ma trận
Kohonen con là các nút lá của cây huấn
luyện), hai là cho phép phân mảnh dữ liệu để
huấn luyện song song trên nhiều mạng nơron
SOM khác nhau. Ngoài ra, do mô hình huấn
luyện đƣợc biểu diễn theo cấu trúc cây nên
thời gian áp dụng mạng đã huấn luyện để
phân cụm dữ liệu cũng giảm đáng kể. Tuy
nhiên, với mô hình cây phân tầng việc xác
định một cấu hình mạng phù hợp là một vấn
đề khó. Với mỗi dạng bài toán cần nhiều lần
“thử sai” để xác định cấu hình phù hợp nhất.
Đây là vấn đề cần tiếp tục nghiên cứu.
TÀI LIỆU THAM KHẢO
1. Teuvo Kohonen, (2001) “Self-Organizing
Maps”, Springer, 3rd Edition, pp. 105-176.
2. J. Han and M. Kamber, (2001) “Data Mining -
Concepts and Techniques”, Morgan Kaufmann,
Chapter 8,.
3. Silva, Marques, (2007) “A hybrid parallel SOM
algorithm for large maps in data-mining”, 13th
Portuguese conference on artificial intelligence
Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84
84
(EPIA07), workshop on business intelligence,
Guimaraes, Portugal, IEEE.
4. Roberto Henriques, Victor Lobo, Fernando
Bação, (2012) ”Spatial Clustering Using
Hierarchical SOM”, ISBN 978-953-51-0862-7.
5. Jorma Laaksonen, Markus Koskela, Erkki Oja,
(1999) “Application of Tree Structured Self-
Organizing Maps in Content-Based Image
Retrieval”, Proceedings of ICANN’99, Edinburgh,
UK, 9th.
6. Costa, Marcio, (2001) “A new tree-structured self-
organizing map for data analysis”, Proceedings.
IJCNN '01. International Joint Conference on.
7. Teuvo Kohonen, Samuel Kaski, Krista Lagus,
Jarkko Salo-järvi, Jukka Honkela, Vesa Paatero,
and Antti Saarela, (2000) “Self-organization of a
massive document collection”, IEEE Transac-
tions on Neural Networks, 11:57485.
8. Le Anh Tu, Nguyen Quang Hoan, Le Son Thai,
(2013) “Clustering Hierarchical Data Using Som
Neural Network”, ICCASA 2012, LNICST 109, pp.
282–289.
9. Lê Anh Tú, Nguyễn Quang Hoan, Lê Sơn Thái,
(2011) “Cải tiến giải thuật mạng nơron som áp dụng
cho bài toán phân cụm ảnh màu”, Một số vấn đề
chọn lọc của Công nghệ thông tin và truyền thông,
Cần Thơ, 7-8 tháng 10 năm 2011, Bài 4, tr. 54-63.
10. Alfred Ultsch and H. Peter Siemon, (1990)
“Kohonen's self-organizing feature maps for
exploratory data analysis”, In Proceedings of the
International Neural Network Conference
(INNC'90), pages 305-308. Kluwer.
11. https://rtmath.net/help/html/29f7cb00-39a1-
4fc0-af60-52925f074edd.htm
12.
ualisations.html
SUMMARY
SOME IMPROVED SOLUTIONS TO SPEED UP
THE SOM NEURAL NETWORK ALGORITHM
Le Anh Tu
1*
, Le Son Thai
1
, Nguyen Quang Hoan
2
1College of Information and Communication Technology – TNU
2Posts and Telecommunications Institute of Technology
SOM neural network is used mainly in data clustering problem. However, the input data set for
this problem is often large which influences the computation time. This paper presents two
solutions in oder to improve the network computation time including: narrowing your searching
threshold for winning neuron and processing data parallelly based on layered network architecture.
In addition, the paper presents the results of experimental settings and evaluates the effectiveness
of each solution.
Keywords: SOM, Kohonen, BMU, hierarchical, data clustering
Ngày nhận bài:25/01/2014; Ngày phản biện:10/02/2014; Ngày duyệt đăng: 26/02/2014
Phản biện khoa học: TS. Vũ Đức Thái – Trường ĐH Công nghệ Thông tin & Truyền thông - ĐHTN
*
Tel: 0989 199088, Email: latu@ictu.edu.vn
Các file đính kèm theo tài liệu này:
- brief_42080_45927_6620149485415_5139_2048642.pdf