Tóm tắt: Khai phá dữ liệu cung cấp các kỹ thuật phân tích nâng cao để trích xuất
thông tin có ích từ dữ liệu lớn. Về lịch sử, khai phá dữ liệu là một nhiệm vụ mà chỉ
các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực hiện được. Mặt
khác, các kết quả của việc khai phá dữ liệu thường liên quan đến một loạt những
người dùng khác nhau trên toàn công ty. Loạt bài viết này trình bày kiến trúc
chung và các cơ hội nghiệp vụ để kết hợp khai phá dữ liệu IBM® InfoSphere™
Warehouse (Kho dữ liệu InfoSphere của IBM ) với việc tạo báo cáo Cognos® của
IBM. Việc tích hợp này cho phép mọi người trên toàn công ty sử dụng các kết quả
khai phá dữ liệu. Bài viết đầu tiên giới thiệu kiến trúc tích hợp cơ bản và cũng bao
gồm một nghiên cứu về trường hợp kỹ thuật, ngắn gọn để cung cấp cho bạn một
sự hiểu biết cơ bản về cách đạt tới sự tích hợp này.
29 trang |
Chia sẻ: tlsuongmuoi | Lượt xem: 2287 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Báo cáo Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo Cognos của IBM - Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo
Cognos của IBM, Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere
Warehouse và Cognos
Phổ biến kết quả khai phá dữ liệu của bạn một cách có hiệu quả
Benjamin G. Leonhardi, Kỹ sư phần mềm, IBM
Christoph Sieb, Kỹ sư phần mềm cao cấp, IBM
Dr. Michael J. Wurst, Kỹ sư phần mềm cao cấp, IBM
John Rollins, Ph.D., P.E., Chuyên viên kỹ thuật, IBM
Tóm tắt: Khai phá dữ liệu cung cấp các kỹ thuật phân tích nâng cao để trích xuất
thông tin có ích từ dữ liệu lớn. Về lịch sử, khai phá dữ liệu là một nhiệm vụ mà chỉ
các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực hiện được. Mặt
khác, các kết quả của việc khai phá dữ liệu thường liên quan đến một loạt những
người dùng khác nhau trên toàn công ty. Loạt bài viết này trình bày kiến trúc
chung và các cơ hội nghiệp vụ để kết hợp khai phá dữ liệu IBM® InfoSphere™
Warehouse (Kho dữ liệu InfoSphere của IBM ) với việc tạo báo cáo Cognos® của
IBM. Việc tích hợp này cho phép mọi người trên toàn công ty sử dụng các kết quả
khai phá dữ liệu. Bài viết đầu tiên giới thiệu kiến trúc tích hợp cơ bản và cũng bao
gồm một nghiên cứu về trường hợp kỹ thuật, ngắn gọn để cung cấp cho bạn một
sự hiểu biết cơ bản về cách đạt tới sự tích hợp này.
Mở đầu
Khai phá dữ liệu cho phép các chuyên gia, các nhà phân tích và những người sử
dụng có được cái nhìn sâu sắc với các mẫu trong các bộ sưu tập dữ liệu lớn và kết
hợp chúng vào quy trình nghiệp vụ hàng ngày. Về lịch sử, khai phá dữ liệu là một
nhiệm vụ mà chỉ các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực
hiện được. Mặt khác, các kết quả của việc khai phá dữ liệu thường liên quan đến
những người dùng khác nhau trên toàn công ty.
Hãy xem xét kịch bản sau đây. Bạn thu thập dữ liệu về khách hàng của mình bao
gồm các khía cạnh nhân khẩu học (như tuổi tác, nghề nghiệp và nơi cư trú) cũng
như các giao dịch trong quá khứ (như các mặt hàng đã bán và các hợp đồng). Bộ
phận tiếp thị của bạn muốn phát triển các đề xuất chào hàng mới được thiết kế
riêng cho các nhóm khách hàng cụ thể với các đặc tính giống nhau. Làm thế nào
để tìm ra các nhóm người dùng điển hình như vậy? Phân cụm dữ liệu cung cấp
một giải pháp cho vấn đề này. Nó tự động nhóm các tập dữ liệu theo các đặc tính
hoặc các tính năng của chúng. Sau đó, một nhà phân tích có thể rà soát lại các
nhóm này và điều chỉnh chúng dần dần cho đến khi chúng đáp ứng các yêu cầu
của mình. Ví dụ, một chuyên gia tiếp thị có thể thấy rằng có một nhóm khách hàng
nhỏ nhưng là nhóm khách hàng quan trọng về kinh tế có độ tuổi trên trung bình và
không sử dụng dịch vụ ngân hàng Internet. Dựa vào thông tin này, các đề xuất
chào hàng riêng biệt có thể được thực hiện cho những khách hàng này. Một bước
quan trọng trong quá trình phân tích là cho phép những người dùng hiểu các kết
quả của bước phân cụm dữ liệu này. Các chuyên gia phân tích thường không phải
là các chuyên gia về lập trình các cơ sở dữ liệu mức thấp.
Làm thế nào có thể phân phối các kết quả khai phá dữ liệu đến các nhà phân tích
và các nhân viên cần dùng nó? Làm thế nào có thể trình bày các kết quả sao cho
phản ánh quy trình nghiệp vụ mà người dùng có dính líu đến? Làm thế nào có thể
đáp ứng các yêu cầu an ninh, sao cho mỗi người dùng chỉ thấy những gì mà người
ấy được xem theo quy định? Để đưa ra các câu trả lời thoả đáng cho những câu hỏi
đó, cần di chuyển vị trí trong khung nhìn phối cảnh, rời xa các phân tích thống kê
và tiến gần đến phía người dùng cuối thực tế và các quy trình nghiệp vụ mà người
đó dính líu đến. InfoSphere Warehouse là nền móng vững mạnh cho việc tạo kho
dữ liệu phạm vi toàn công ty. InfoSphere Warehouse cung cấp chức năng khai phá
dữ liệu trực tiếp trong cơ sở dữ liệu DB2 ở bên dưới, nơi dữ liệu thường trú. Có
thể truy cập các chức năng đầy đủ bằng một nền tảng bộ công cụ dựa trên Eclipse,
dễ sử dụng và các nhiệm vụ triển khai có thể được kích hoạt trực tiếp ngay trong
bộ công cụ này.
Cognos IBM là một trong những người dẫn đầu thị trường về các giải pháp tạo
báo cáo. Việc tạo báo cáo đóng một vai trò quan trọng trong nhiều công ty vì nó
giúp củng cố và trực quan hóa các thông tin liên quan theo nhiều cách khác nhau
cho những khán giả đích khác nhau. Các kết quả được trình bày thường được rút
ra bằng cách áp dụng các phép tính số học cơ bản đối với thông tin được lưu trữ
trong kho dữ liệu (ví dụ, doanh thu trung bình mỗi tháng). Các phân tích nâng cao,
như trong ví dụ trên, không thuộc phạm vi và khả năng của một khung công tác
tạo báo cáo. Điều này dẫn đến kết hợp cả hai, vừa sử dụng các khả năng phân tích
nâng cao, quy mô linh hoạt của InfoSphere Warehouse vừa sử dụng các khả năng
tạo báo cáo tinh vi đã được khẳng định của Cognos IBM. Các phần sau đây cho
thấy cách có thể kết hợp khai phá dữ liệu của Kho dữ liệu InfoSphere IBM và
Cognos IBM theo một cách linh hoạt để đạt được mục tiêu này. Sự tích hợp này
không đòi hỏi bất kỳ việc lập trình hoặc thiết lập khác thường nào; tất cả có thể
được thực hiện bằng cách chỉ sử dụng SQL thuần của DB2.
Các phần sau đây trình bày ngắn gọn kiến trúc cơ bản của InfoSphere Warehouse
và IBM Cognos. Tiếp theo là các ý tưởng mức cao về cách có thể tích hợp cả hai.
Cuối cùng, sự tích hợp này được trình diễn trong một ví dụ về lĩnh vực chăm sóc
sức khỏe đơn giản, theo từng bước một. Các bài viết sắp tới của loạt bài này mô tả
các khía cạnh về khái niệm và kỹ thuật tiên tiến hơn về sự tích hợp này.
Các thành phần sản phẩm
IBM InfoSphere Warehouse
InfoSphere Warehouse (Kho dữ liệu InfoSphere) dựa vào DB2 để lưu trữ dữ liệu.
Cơ sở dữ liệu có sẵn một tính năng phân vùng (DPF) để lưu trữ với hiệu năng cao
và an toàn, có khả năng mở rộng dữ liệu trong kho dữ liệu, kết hợp các lợi thế của
các cơ sở dữ liệu xử lý giao dịch trực tuyến (OLTP) với các yêu cầu lưu trữ của
các kho dữ liệu lớn. InfoSphere Warehouse có sẵn với một loạt các công cụ để
quản lý và phân tích kho dữ liệu. Các thành phần phân tích gồm
Các dịch vụ tạo khối.
Khai phá dữ liệu.
Phân tích văn bản.
InfoSphere Warehouse Design Studio (Xưởng thiết kế kho dữ liệu InfoSphere) là
nền tảng tạo công cụ dựa trên Eclipse được sử dụng để thiết kế các quy tắc về khối
lượng công việc, các luồng biến đổi dữ liệu và các luồng phân tích để khai phá dữ
liệu và phân tích văn bản. Sau đó, các luồng này có thể được triển khai tới bàn
điều khiển quản trị InfoSphere Warehouse để được lập lịch biểu và chạy theo các
yêu cầu. Khai phá dữ liệu InfoSphere Warehouse được xây dựng với các thủ tục
đã lưu của DB2 và các hàm do người dùng định nghĩa để thực hiện trong cơ sở dữ
liệu với hiệu năng cao, lợi dụng DB2 làm một môi trường thực hiện. Có thể truy
cập nó hoặc thông qua giao diện SQL của nó hoặc thông qua các luồng khai phá
dữ liệu của InfoSphere Warehouse.
Khai phá dữ liệu là nhiệm vụ tìm kiếm thông tin có ích trong các tập dữ liệu lớn.
Một kịch bản điển hình sẽ được sử dụng khi chạy ví dụ trong bài viết này là chăm
sóc sức khỏe. Hiện nay có thể thu thập một lượng lớn dữ liệu chăm sóc sức khỏe,
mô tả tình trạng của nhiều bệnh nhân khác nhau qua nhiều năm. Một công dụng
quan trọng của dữ liệu này là để sớm tìm ra các chỉ báo cho các bệnh tiềm ẩn. Với
mục đích này, bạn có thể thu thập dữ liệu của các bệnh nhân, ví dụ, mắc bệnh tim
và phân tích các tham số nào, chẳng hạn như huyết áp và cân nặng, có liên quan
với nó. Dữ liệu này phải được thu gom và được chuyển đổi để có thể dùng nó cho
việc khai phá dữ liệu. Cụ thể hơn, bạn cần phải có được một bảng chứa đúng một
hàng cho một bệnh nhân và một số cột biểu diễn thông tin về bệnh nhân. Ngoài ra,
cần có một cột riêng chỉ thị liệu bệnh nhân này có thực sự bị mắc bệnh không.
Lược đồ có thể sẽ giống như Hình 1:
Hình 1. Lược đồ của bảng cơ sở dữ liệu bệnh tim (một phần của các ví dụ
InfoSphere Warehouse)
Dựa trên dữ liệu này, các thủ tục đã lưu trữ trong InfoSphere Warehouse có thể
xây dựng một mô hình dự báo, cho bất kỳ bệnh nhân mới nào, cho biết liệu người
đó có thể mắc bệnh tim tiềm ẩn hay không. Quá trình này được gọi là "mô hình
hóa". Mô hình khai phá dữ liệu XML được lưu trữ trong cơ sở dữ liệu và có thể
được truy cập thông qua SQL/XQuery. Nó có thể được sử dụng cho hai mục đích.
Trước tiên, bạn có thể trích xuất thông tin từ mô hình này để có được các hiểu biết
sâu sắc về những chỉ báo quan trọng của bệnh tim và thông tin thống kê khác. Thứ
hai, mô hình này có thể được áp dụng tự động cho các bản ghi dữ liệu mới. Như
vậy, đối với bất kỳ các bản ghi nào còn chưa có giá trị nào trong cột bệnh tim, bạn
có thể tự động điền thêm giá trị này, cùng với một giá trị biểu thị mức tin cậy rằng
dự báo này là chính xác. Quá trình này được gọi là "cho điểm". Hình 2 cho thấy
điều này dưới dạng lược đồ:
Hình 2. Dựa vào dữ liệu lịch sử, một mô hình dự báo được xây dựng để sau
đó có thể được áp dụng cho dữ liệu mới
InfoSphere Warehouse chứa các cài đặt hiệu quả cao của hầu hết các thuật toán
khai phá dữ liệu hiện tại. Khai phá dữ liệu được gọi khi lần đầu tiên viết dữ liệu
vào một bảng. Sau đó, tạo ra một mô hình, sau này có thể áp dụng mô hình đó cho
các bản ghi vẫn chưa biết được giá trị đích, cung cấp một dự báo và một giá trị tin
cậy cho dự báo này. Tất cả các hàm khai phá dữ liệu được gọi chỉ như các lệnh
SQL bình thường, như bạn sẽ thấy dưới đây. Điều này cho phép tích hợp dễ dàng
trong hầu hết các thiết lập, chẳng hạn như các dịch vụ Web.
IBM Cognos 8 Business Intelligence
IBM Cognos 8 Business Intelligence (Tri thức nghiệp vụ Cognos 8 của IBM) cung
cấp một tập đầy đủ về các khả năng tri thức nghiệp vụ (BI) và được dựa trên một
kiến trúc hướng dịch vụ (SOA) linh hoạt. Các khả năng chính là tạo báo cáo, phân
tích, các bảng đồng hồ và bảng điểm.
Tạo báo cáo được sử dụng để tổng hợp dữ liệu liên quan về các quy trình nghiệp
vụ và phân phối nó cho những người khai phá tốt nhất từ thông tin cụ thể này.
Trong môi trường khai phá dữ liệu, điều này có nghĩa là chuyển giao kết quả cho
những người khai phá tốt nhất từ những hiểu biết nghiệp vụ được tạo ra.
Các thành phần của Cognos 8 cần thiết để tạo và xuất bản các bản ghi nghiệp vụ
là:
Cognos Connection (Kết nối Cognos): Cổng thông tin Web và điểm nhập
vào chức năng của Cognos 8. Từ đây người dùng có thể quản lý, tổ chức và
xem nội dung hiện tại như các bản ghi hay các bảng đồng hồ. Các studio
(xưởng) thiết kế nội dung dựa trên web, như Report Studio, có thể được bắt
đầu từ kết nối Cognos để tạo ra tài nguyên mới hoặc sửa đổi các tài nguyên
hiện có. Nó cũng được sử dụng để quản lý máy chủ Cognos, ví dụ, để thay
đổi các hạn chế truy cập, nhập khẩu nội dung, hoặc thay đổi danh sách
những người cần gửi bản ghi đến.
Cognos Framework Manager (Nhà quản lý khung công tác Cognos):
Công cụ mô hình hóa cho các nguồn dữ liệu được sử dụng trong Cognos 8.
Dữ liệu từ hầu hết các cơ sở dữ liệu và các nguồn khác, như các dịch vụ
Web, ví dụ, có thể được truy cập vào các bản ghi của Cognos bằng cách mô
tả một tầng siêu dữ liệu trong Framework Manager (Nhà quản lý khung
công tác). Các bảng, các khung nhìn cơ sở dữ liệu và các thủ tục đã lưu trữ
có thể được thêm vào một gói Cognos làm các chủ đề truy vấn. Framework
Manager được sử dụng để nhập khẩu và hợp nhất thông tin có sẵn trong các
nguồn dữ liệu khác nhau trong công ty để cho thông tin có thể được sử
dụng theo cách chặt chẽ trong các công cụ BI của Cognos 8 như Report
Studio. Điều quan trọng cần lưu ý rằng chính dữ liệu được lưu giữ trong
nguồn dữ liệu và được truy cập khi báo cáo được tạo ra.
Cognos Report Studio (Xưởng tạo báo cáo Cognos): Một trong các xưởng
thiết kế nội dung dựa trên Web của Cognos 8 BI. Nó được dùng để tạo và
chỉnh sửa các bản ghi phức tạp về dữ liệu đã được mô tả trong Framework
Manager. Nó cung cấp chức năng mạnh mẽ như truy vấn ngược (drill-
down), nhắc nhở và một thư viện tạo biểu đồ toàn diện.
Để làm cho dữ liệu có sẵn trong một báo cáo, cần thực hiện một vài bước:
Trong Framework Manager, Trình mô hình hóa dữ liệu tạo ra siêu dữ liệu
Cognos để mô tả dữ liệu trong cơ sở dữ liệu từ một khung nhìn phối cảnh
nghiệp vụ (bao gồm cả quan hệ giữa các bảng, các tên nghiệp vụ của các
giá trị và v.v).
Sau khi siêu dữ liệu đã được mô hình hóa, nó được triển khai như là một
gói vào kho lưu trữ nội dung Cognos 8. Từ đó, nó có thể được truy cập
thông qua kết nối Cognos và các xưởng thiết kế nội dung.
Nhà thiết kế báo cáo nhập Kết nối Cognos và tạo ra một báo cáo mới về gói
đã triển khai. Sau khi tạo ra báo cáo này, có thể quản trị nhóm đích và dạng
phân phối (như thư điện tử hoặc cổng thông tin Web).
Khả năng tạo các báo cáo từ các nguồn dữ liệu quan hệ là chìa khóa cho sự tích
hợp khai phá InfoSphere Warehouse và Cognos của IBM.
Kiến trúc tích hợp
Nội dung của các báo cáo Cognos bao gồm một tập kết quả do một nguồn dữ liệu
quan hệ cung cấp, như mô tả ở trên. Nội dung của một báo cáo cụ thể được xác
định bởi một truy vấn SQL (động) cho một hoặc nhiều nguồn dữ liệu. Bạn có thể
sử dụng mô hình giao tiếp cơ bản này để tích hợp khai phá dữ liệu và tạo báo cáo
Cognos theo các cách sau:
Cognos có thể được sử dụng để hiển thị bảng cho điểm, có thể kèm theo
thông tin về độ tin cậy.
Cognos có thể được sử dụng để hiển thị thông tin mô hình. Thông tin này
được trích xuất từ các mô hình XML thực tế bằng các hàm của trình trích
xuất bảng hoặc bằng các truy vấn XQuery.
Cognos có thể gọi khai phá dữ liệu và cho điểm tự động bằng cách gọi các
thủ tục SQL đã lưu trữ. Điều này cho phép thực hiện như sau:
o Gọi khai phá dữ liệu với các giá trị cài đặt khác nhau do người dùng
cung cấp trong giao diện tạo báo cáo.
o Gọi khai phá dữ liệu trên các tập con dữ liệu khác nhau (ví dụ, để tạo
ra các báo cáo truy vấn ngược đệ quy).
o Các bản ghi cho điểm động dựa trên các đầu vào của người dùng.
Hình 3 tóm tắt lược đồ cuộc gọi được sử dụng trong tất cả các trường hợp này.
Hình 3. Kiến trúc tích hợp cơ bản của khai phá dữ liệu IBM InfoSphere và
tạo báo cáo IBM Cognos
Khai phá dữ liệu được gọi bằng một cuộc gọi thủ tục đã lưu trữ và tạo ra một mô
hình khai phá XML trong cơ sở dữ liệu. Mô hình này có thể được ghi vào dữ liệu
mới hoặc thông tin mô hình có thể được trích xuất vào một bảng. Các bảng này có
thể được Cognos tiêu dùng. Người dùng có thể gọi tương tác khai phá bằng cách
gọi một thủ tục đã lưu tương ứng trên cơ sở dữ liệu trong một báo cáo Cognos.
Việc tích hợp này cung cấp nhiều lợi ích:
Nó là rất đơn giản và chỉ cần kiến thức SQL và không cần lập trình bổ
sung.
Các mô hình khai phá được lưu trữ trong cơ sở dữ liệu và có thể được truy
cập một cách an toàn, hiệu quả từ Cognos.
Sử dụng các thủ tục đã lưu, toàn bộ quy trình khai phá có thể được kích
hoạt và được điều khiển từ Cognos.
Phần tiếp theo là một ví dụ từng bước cho kiểu tích hợp này, nó cũng là một ví dụ
đơn giản nhất: cho điểm các bản ghi trong cơ sở dữ liệu và hiển thị các kết quả
trong một báo cáo Cognos. Việc trích xuất thông tin mô hình và gọi khai phá dữ
liệu động từ các báo cáo Cognos sẽ được trình bày trong các bài viết tiếp theo của
loạt bài này.
Sử dụng các kết quả khai phá dữ liệu trong các báo cáo Cognos: Một ví dụ từ lĩnh
vực chăm sóc sức khỏe
Ví dụ này phân tích dữ liệu bệnh nhân trong bệnh viện. Khoa tim mạch của bệnh
viện có toàn bộ các hồ sơ chính về bệnh nhân của họ cùng với một số kết quả đo
như nhịp tim, huyết áp, cholesterol và v.v.. Các bệnh nhân được kiểm tra với bốn
căn bệnh tim mạch khác nhau. Các bản ghi bệnh nhân có một cột cho biết liệu họ
có mắc một trong bốn căn bệnh tim mạch (y = có) hay không (n = không). Bảng
cơ sở dữ liệu của bệnh tim mạch tương ứng được mô tả trong Hình 1. Bảng này có
thể được tìm thấy trong các ví dụ đi kèm với InfoSphere Warehouse.
Mục tiêu phân tích là để dự báo cho các bệnh nhân mới về nguy cơ họ mắc phải
bất kỳ một trong bốn căn bệnh tim mạch. Nếu có nguy cơ cao, cần thực hiện ngay
các cuộc khám sức khỏe toàn bộ.
Ý tưởng là để cho phép quản lý nguy cơ mắc bệnh ngay cả khi không tiến hành
khám chuyên khoa cho một trong những người mắc các bệnh tim mạch, nhưng đã
có sẵn các kết quả đo từ các cuộc khám sức khỏe trước đó về các lĩnh vực khác.
Tạo mô hình dự báo
Đầu tiên, tạo một mô hình dự báo dựa vào bảng HEART cho phép bạn dự báo các
nguy cơ bệnh tim cho các bệnh nhân.
Tạo một dự án Data Warehouse (Kho dữ liệu):
Nhấn chuột phải vào Project Explorer và chọn New > Data Warehouse Project
(như trong Hình 4 dưới đây).
Hình 4. Tạo một dự án Kho dữ liệu
Trong trình thủ thuật sau đây, hãy gõ tên dự án, ví dụ là AdvancedAnalytics. Sau
đó nhấn Finish.
Tạo ra một luồng khai phá rỗng:
1. Mở rộng dự án vừa mới được tạo ra.
2. Nhấn chuột phải vào thư mục Mining Flows (Các luồng khai phá) và chọn
New > Mining Flow.
3. Trong trình thủ thuật hiện lên, nhập vào tên luồng khai phá là Heart
Disease Risk (Có nguy cơ bệnh tim mạch).
4. Trong ví dụ này, bạn sẽ làm dựa vào cơ sở dữ liệu này. Vì vậy, hãy để mặc
định và nhấn Next.
5. Chọn cơ sở dữ liệu DWESAMP, và nhấn Finish.
Tạo luồng khai phá:
Trình soạn thảo luồng khai phá mở ra. Ở bên phải của trình soạn thảo luồng khai
phá bạn có thể thấy một bảng (palette) có các toán tử (xem Hình 5). Với các toán
tử này, bạn có thể xây dựng một luồng khai phá bằng cách kéo và thả chúng vào
khung trình soạn thảo.
Hình 5. Luồng khai phá trong Design Studio
Để tạo ra mô hình khai phá dự báo nguy cơ mắc bệnh cho các bệnh nhân, hãy làm
theo các bước sau:
1. Trong bảng các toán tử, trong phần Sources and Targets (Các nguồn và các
đích), chọn một toán tử Table Source (Nguồn bảng) và kéo nó vào trình
soạn thảo.
2. Trong hộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE (Chăm sóc
sức khỏe) và chọn bảng HEART, sau đó nhấn Finish.
3. Trong bảng các toán tử, trong phần Preprocessing Operators (Các toán tử
xử lý trước), chọn toán tử Random Split (Phân chia ngẫu nhiên) và kéo nó
vào trình soạn thảo.
4. Nối cổng Output (Đầu ra) của toán tử đầu tiên tới cổng Input (Đầu vào)
của toán tử thứ hai bằng một hành động kéo đơn giản.
5. Chọn toán tử Random Split.
6. Trên thẻ Properties (Các đặc tính) bên dưới trình soạn thảo khai phá, thiết
lập Percentage (Tỷ lệ phần trăm) của đặc tính dữ liệu kiểm tra là 20. Điều
này có nghĩa chúng ta sẽ sử dụng 20 phần trăm dữ liệu để xác nhận hợp lệ
mô hình của chúng ta sau đó. Vì vậy, bạn phải phân chia dữ liệu trước khi
xây dựng mô hình dự báo.
7. Trong bảng các toán tử, trong phần Mining Operators (Các toán tử khai
phá), chọn một toán tử Predictor (Trình dự báo) và kéo nó vào trình soạn
thảo.
8. Nối cổng Training Output (Đầu ra đào tạo) của toán tử phân chia với
Predictor Input Port (Các đầu vào Trình dự báo).
9. Chọn toán tử Predictor.
10. Trên thẻ Properties bên dưới trình soạn thảo khai phá, chọn thẻ Mining
Settings (Các giá trị cài đặt khai phá) ở phía bên trái.
11. Trong danh sách chọn cột Target (Đích), chọn DISEASED (Mắc bệnh) làm
cột bạn muốn dự báo.
12. Design Studio tự động nhận ra rằng bạn muốn dự báo một cột giá trị danh
định và tự động cung cấp cho bạn các giá trị thiết lập (trong cùng một thẻ
này) có sẵn cho mục đích này. Trong danh sách lựa chọn Algorithm (Thuật
toán), chọn Naïve Bayes.
13. Trên thẻ các đặc tính Mining Settings (các giá trị cài đặt khai phá), chọn thẻ
Model Name (Tên mô hình). Để lại tiền tố như đã có nhưng thay đổi tên
mô hình thành HeartDiseasePrediction.
14. Ngoài ra, trong phần Mining của bảng các toán tử, chọn toán tử Tester
(Trình kiểm tra) và kéo nó vào trình soạn thảo.
15. Nối cổng đầu ra Predictor’s Model (Mô hình của Trình dự báo) với cổng
đầu vào Tester’s Model (Mô hình của Tester) và cổng kiểm tra đầu ra
Random Split’s Test (Phân chia ngẫu nhiên) với cổng đầu vào của
Tester’s input port.
16. Lưu trữ luồng khai phá, ví dụ, bằng cách nhấn vào vùng soạn thảo và nhấn
Ctrl+S.
Bây giờ, luồng khai phá đã sẵn sàng chạy.
Chạy luồng khai phá:
Bạn có thể thực hiện toàn bộ một trình soạn thảo luồng khai phá hoặc chỉ theo các
đường dẫn dành riêng cho luồng đó bằng cách nhấn chuột phải vào một toán tử và
chọn Run to this step… (Chạy đến bước này ...). Trong kịch bản này, bạn nhấn
chuột phải vào toán tử Tester, chọn Run to this step… và nhấn Finish. Luồng
khai phá này tạo ra một mô hình dự báo nguy cơ về bệnh tim và lưu nó trong cơ sở
dữ liệu. Nó được đào tạo trên 80 phần trăm dữ liệu và sau đó được kiểm tra trên
các điểm dữ liệu còn lại. Điều này cho phép bạn đánh giá mô hình sẽ thực hiện
trên dữ liệu mới tốt như thế nào. Chỉ cần nhấn chuột phải vào cổng Test Result
(Kết quả kiểm tra) của toán tử Tester. Bạn cũng có thể xem xét chính mô hình đó.
Cuối cùng, nhấn chuột phải vào cổng Model của toán tử Predictor.
Cho điểm dữ liệu mới bằng cách sử dụng mô hình khai phá
Cho điểm có nghĩa là áp dụng một mô hình đã học trước đây vào dữ liệu mới. Dữ
liệu mới chưa có phân loại (trong trường hợp này, vẫn chưa thực hiện cuộc khám
bệnh tim mạch nào) và quá trình cho điểm sẽ gán một dự báo cho mỗi bản ghi mới
theo mô hình khai phá.
Tạo một luồng khai phá mới để cho điểm:
Thực hiện các bước tương tự như trong Create a new mining flow (Tạo một
luồng khai phá mới), trừ việc bạn nên cho nó một tên khác, như là Classify New
Patients (Phân loại các bệnh nhân mới) chẳng hạn.
Tạo một luồng cho điểm:
Để tạo luồng cho điểm để phân loại các bệnh nhân mới thực hiện như sau:
1. Trong bảng các toán tử, trong phần Sources and Targets, chọn một toán tử
Model Source và kéo nó vào trình soạn thảo.
2. Trong hộp thoại lựa chọn mô hình khai phá, mở rộng các mô hình phân loại
và lựa chọn mô hình AdvancedAnalytics.HeartDiseasePrediction của
bạn.
3. Trong phần Sources and Targets của bảng các toán tử, kéo một toán tử
Table Source vào trình soạn thảo.
4. Trong hộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE và chọn
bảng HEART. Bảng này có thể được nạp vào kho dữ liệu hàng đêm hoặc
theo thời gian thực, bất cứ khi nào có một bệnh nhân mới đã vào viện và
một khi các kết quả đo cần thiết đã có sẵn.
5. Trong phần Mining Operators của bảng các toán tử, kéo một toán tử Scorer
(Trình cho điểm) vào trình soạn thảo.
6. Nối toán tử mô hình và nguồn bảng vào trình cho điểm này.
7. Trình cho điểm này gắn thêm hai cột có phân loại (y và n) và cột khác chỉ
rõ độ chắc chắn của phân loại này. Để lưu bảng đã cho điểm này, bạn phải
tạo một bảng phù hợp với các cột ấy như là một toán tử Table Target.
Để thực hiện, nhấn chuột phải vào cổng đầu ra của trình cho điểm và chọn
Create Suitable Table… (Tạo bảng phù hợp ...).
8. Trong hộp thoại hiện lên, chỉ cần chỉ rõ tên của bảng mới:
NEW_PATIENT_CLASSIFICATION và lược đồ ở nơi bảng sẽ được
tạo: HEALTHCARE. Nhấn Finish.
9. Lưu luồng cho điểm.
10. Cuối cùng, thực hiện luồng này bằng cách nhấn chuột vào toán tử đích của
bảng và chạy theo bước này.
Sau khi thực hiện luồng cho điểm này, trong khung nhìn phía dưới xuất hiện một
mẫu từ bảng cho điểm (xem Hình 6). Nếu bạn cuộn sang bên phải, bạn sẽ thấy hai
cột đã được trình cho điểm này nối thêm vào.
Hình 6. Luồng cho điểm với các kết quả mẫu
Cột được nối đầu tiên, PREDICTED_CLASS, chứa kết quả dự báo. Nó nói rõ liệu
mô hình khai phá phân loại các bệnh nhân đang xét là người sẽ bị bệnh (y) hay
không bị bệnh (n). Cột được nối thứ hai, CLASS_CONFIDENCE, chứa các số
giữa 0 và 1 và nói rõ độ chắc chắn đã dự báo của trình cho điểm (theo mô hình).
Giá trị 1 tương ứng với "chắc chắn 100 phần trăm rằng phân loại này là đúng."
Tạo siêu dữ liệu trong Cognos Framework Manager
Trước khi bạn có thể tạo một bản ghi bằng cách sử dụng các kết quả khai phá, bạn
cần phải định nghĩa tài nguyên nào (các cơ sở dữ liệu, các bảng hoặc các khung
nhìn) nên được sử dụng. Framework Manager cũng cho phép bạn làm phong phú
thêm các nguồn dữ liệu bằng cách định nghĩa các kết nối và các cột mới (với các
biểu thức).
Ví dụ đơn giản này tạo ra một dự án Cognos Framework Manager. Hãy định nghĩa
bảng kết quả cho điểm và xuất bản siêu dữ liệu.
Mở Framework Manager và tạo một dự án mới:
1. Trên màn hình, bạn có thể khởi chạy Cognos Framework Manager.
2. Sau khi khởi động xong, nhấn vào Create a new project….
3. Trong hộp thoại hiện lên, chỉ rõ tên là HeartMetaData, và nhấn OK.
4. Chọn English làm ngôn ngữ được dùng và nhấn OK.
5. Khi bạn muốn tạo siêu dữ liệu từ một bảng DB2, bạn chọn một Data
Sources (Các nguồn dữ liệu) chung và nhấn Next.
6. Chọn cơ sở dữ liệu DWESAMP và nhấn Next.
7. Bây giờ bạn được yêu cầu chọn đối tượng dữ liệu mà bạn muốn nhập khẩu
làm siêu dữ liệu. Mở rộng lược đồ HEALTHCARE và thư mục bảng và
kiểm tra bảng NEW_PATIENT_CLASSIFICATION mà bạn đã tạo ra
trong quá trình thực hiện luồng cho điểm. Nhấn Next.
8. Các thiết lập trên trang này là OK, rồi nhấn Import và sau đó nhấn Finish.
Hình 7. Trình quản lý khung công tác Cognos 8
Ở phía bên trái trong Project Viewer, bạn có thể tìm hiểu dự án mới được tạo ra.
Bây giờ, hãy định nghĩa một cột bổ sung kết hợp các hiểu biết về hai cột dự báo do
luồng cho điểm tạo ra. Ý tưởng là mang lại một cái nhìn sâu về khai phá dữ liệu
theo cách dễ hiểu cho các bác sĩ.
Để làm điều này, thực hiện các bước sau:
1. Mở rộng DWESAMP. Bạn thấy bảng được tạo ra trong luồng cho điểm có
tên là NEW_PATIENT_CLASSIFICATION.
2. Nhấn đúp vào bảng này.
3. Hộp thoại Query Subject Definition (Định nghĩa chủ đề truy vấn) xuất hiện.
Chuyển sang thẻ Calculations (Các tính toán) (xem Hình 8).
Hình 8. Hộp thoại Định nghĩa Query Subject
4. Nhấn Add để tạo ra một cột mới được định nghĩa từ một tính toán. Hộp
thoại Calculation Definition (Định nghĩa tính toán) xuất hiện.
5. Trong trường name, nhập Check (Kiểm tra) và vào trong trường văn bản
định nghĩa Expression (Biểu thức) gõ biểu thức sau đây (biểu thức này
cũng có thể được tìm thấy trong tệp Calculation Definition.txt trên màn
hình nền):
IF ( [DWESAMP].[NEW_PATIENT_CLASSIFICATION].[PREDICTED_CLASS] =
'y')
THEN (IF
([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE]>0.83)
THEN('necessary') ELSE('maybe'))
ELSE
(IF([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE] >
0.9)
THEN('not necessary')
ELSE('maybe'))
Biểu thức trên tạo ra ba lớp mới trong nhãn PREDICTED_CLASS (y và n)
và CLASS_CONFIDENCE. Biểu thức này đặt những bệnh nhân nào có lớp
được dự báo là y với độ tin cậy cao hơn 83 phần trăm vào nhóm các bệnh
nhân có nguy cơ cao (có nghĩa là cần khám sức khỏe ngay). Các bệnh nhân
được phân loại là n và độ tin cậy một của lớp này cao hơn 90 phần trăm
được đặt vào nhóm các bệnh nhân có nguy cơ thấp (có nghĩa là không cần
thiết phải khám sức khỏe). Tất cả các bệnh nhân khác được phân loại là có
nguy cơ trung bình (có thể cần khám sức khỏe). Hình 9 là một ví dụ về hộp
thoại Calculation Definition.
Hình 9. Hộp thoại Calculation Definition
6. Nhấn OK để đóng hộp thoại Calculation Definition.
7. Bạn có thể kiểm tra biểu thức này bằng cách vào thẻ Test và nhấn vào Test
Sample (Kiểm tra mẫu).
8. Nhấn OK để đóng hộp thoại Query Subject Definition.
Tạo một gói và xuất bản nó:
1. Để làm cho siêu dữ liệu mới được tạo sẵn sàng sử dụng, hãy chuyển tới
Project Viewer và nhấn chuột phải vào thư mục Packages, sau đó chọn
Create > Package.
2. Trong trường name, gõ Heart rồi nhấn Next.
3. Nhấn Next, do không cần thực hiện gì cả.
4. Trong hộp thoại sau đây thêm DB2 vào danh sách các tập hợp hàm có sẵn
và nhấn Finish.
5. Trong hộp thoại tiếp theo, nhấn Yes để tiếp tục quá trình xuất bản.
6. Trong phần Select publish location (Chọn vị trí xuất bản) của Publish
Wizard (Trình thủ thuật xuất bản), nhấn Next, do không có gì phải thay đổi.
7. Không xác định các giá trị thiết lập bảo mật trong ví dụ này. Như vậy, nhấn
Next.
8. Sau đó nhấn “Publish"
9. Trong hộp thoại đang nói rằng bạn đã xuất bản thành công gói của bạn,
nhấn Finish.
Tạo một một báo cáo khai phá dữ liệu Cognos đơn giản
Cognos Report Studio là một ứng dụng hoàn toàn dựa trên web. Bạn có thể khởi
động Report Studio bằng cách nhấn đúp vào biểu tượng Internet Explorer trên màn
hình nền (góc trên bên trái).
Bạn phải thực hiện các bước sau để tạo một báo cáo khai phá dữ liệu đơn giản:
1. Trên màn hình Welcome, nhấn vào Create professional reports (Tạo các
bản ghi chuyên nghiệp).
2. Trong Select a package explorer (Chọn một trình thám hiểm gói), hãy nhấn
vào gói Heart mà bạn đã xuất bản trong Framework Manager.
3. Trong hộp thoại Welcome, nhấn vào Create a new report or template
(Tạo một bản ghi mới hoặc khuôn mẫu).
4. Chọn khuôn mẫu rỗng và nhấn OK.
5. Trong ô Insertable Objects (Các đối tượng có thể chèn), bạn có thể chọn
giữa các thẻ khác nhau. Thẻ nguồn (Data sources) được chọn. Trước khi
bạn thêm dữ liệu vào báo cáo, bạn cần có một cấu trúc bố trí. Bạn có thể
nhận được cấu trúc bố trí từ thẻ Toolbox, vì thế bây giờ hãy chuyển ngay
đến đó.
Hình 10. Report Studio
6. Từ danh sách các đối tượng đã hiển thị, kéo một Text Item vào vùng trình
soạn thảo báo cáo (xem Hình 10).
7. Trong hộp văn bản, nhập vào tên Patient checkup recommendation
report (Báo cáo đề xuất khám sức khỏe bệnh nhân).
8. Tìm đến vị trí List item (Mục danh sách) trong hộp công cụ và kéo nó vào
vùng trình soạn thảo.
9. Chuyển về thẻ Source (Data sources) và kéo bảng
NEW_PATIENT_CLASSIFICATION vào danh sách trong vùng trình
soạn thảo.
10. Bạn thấy bảng bệnh nhân đã phân loại và nếu bạn cuộn sang bên phải bạn
cũng thấy các cột được nối thêm vào. Do bạn chỉ cần cột được nối vào là
Check, được tạo ra trong Framework Manager, nên hãy loại bỏ hai cột khác
là và . Chọn cả hai
tiêu đề cột (ấn giữ phím Ctrl), nhấn chuột phải vào các các tiêu đề đã chọn
và chọn Delete từ trình đơn ngữ cảnh. Với ví dụ hiện tại, bạn cũng loại bỏ
các cột , và .
11. Bây giờ, bạn muốn làm nổi bật những bệnh nhân không cần (không cần
thiết) khám sức khỏe bằng màu xanh lá cây, những người cần (cần thiết)
khám sức khỏe bằng màu đỏ và những người khác (có thể khám) sẽ không
được đánh dấu. Để làm như vậy, nhấn chuột phải vào cột Check (Lưu ý:
Nhấn vào thân cột, không phải vào phần tiêu đề) và chọn Style >
Conditional styles….
12. Trong hộp thoại Conditional Styles (Các kiểu dáng có điều kiện), nhấn vào
biểu tượng ở góc dưới bên trái để tạo ra một kiểu dáng mới có điều kiện.
13. Trên hộp thoại tiếp theo, cột Check đã được chọn. Từ Type (Kiểu) của danh
sách thả xuống kiểu dáng có điều kiện, chọn String (Chuỗi ký tự) và nhấn
OK.
14. Trên hộp thoại tiếp theo, nhấn vào biểu tượng ở góc dưới bên trái và chọn
Select Multiple Values… (Chọn nhiều giá trị ...). Report Studio trực tiếp
lấy các giá trị có thể từ cơ sở dữ liệu (Lưu ý: Có thể xảy ra là Report Studio
yêu cầu mã định danh ID và mật khẩu người dùng của DB2).
15. Đầu tiên thêm giá trị necessary (cần thiết) vào danh sách đã chọn và nhấn
OK.
16. Lặp lại các bước 14 và 15 để thêm giá trị not necessary (không cần thiết).
17. Đối với giá trị không cần thiết, chọn Excellent từ danh sách Style thả
xuống.
18. Đối với giá trị cần thiết, chọn Poor từ danh sách Style thả xuống.
19. Nhấn OK hai lần.
20. Thay đổi kiểu dáng tiêu đề bằng cách chọn nó và sau đó nhấn vào trình đơn
Font (Phông chữ) hiện lên trên cửa sổ Properties.
21. Nhấn vào nút Run report (Chạy báo cáo) để xem báo cáo kết quả.
Hình 11 cho thấy báo cáo cuối cùng. Cột cuối cùng bên cho thấy sự phân loại
nguy cơ.
Hình 11. Báo cáo nguy cơ bệnh tim trong lĩnh vực Chăm sóc sức khỏe
Kết luận và triển vọng
Bài viết này mô tả kiến trúc cơ bản cho phép tích hợp đơn giản việc khai phá dữ
liệu InfoSphere vào báo cáo Cognos. Nó chỉ ra rằng một sự tích hợp như vậy có
thể có một tác động đáng kể đến sự chấp nhận khai phá dữ liệu, khi người dùng
các kết quả không cần phải biết tí gì về quá trình khai phá. Một ví dụ đang chạy
trong lĩnh vực y tế đã chỉ ra cách tích hợp đơn giản có thể đạt được chỉ với nỗ lực
phát triển tối thiểu.
Tuy nhiên, có nhiều khả năng hơn thế. Các bài viết tiếp theo sẽ thảo luận các chủ
đề nâng cao hơn, chẳng hạn như truy vấn ngược (drill-through), việc sử dụng các
số liệu thống kê trong nhà quản lý khung công tác và cuộc gọi động khai phá dữ
liệu từ các báo cáo Cognos.
Mục lục
Mở đầu
Các thành phần sản phẩm
Kiến trúc tích hợp
Sử dụng các kết quả khai phá dữ liệu trong các báo cáo Cognos: Một ví dụ
từ lĩnh vực chăm sóc sức khỏe
Kết luận và triển vọng
Các file đính kèm theo tài liệu này:
- Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo Cognos của IBM, Phần 1- T_.pdf