Chương 1: Tổng quan khai phá dữ liệu

Những khó khăn trong khai phá dữ liệu? - Dữ liệu lớn, kích thước lớn - Dữ liệu động - Các trường dữ liệu không phù hợp - Các giá trị bị thiếu - Các trường dữ liệu bị thiếu - Quá phù hợp - Khả năng biểu đạt mẫu - Sự tương tác với người sử dụng các tri thức sẵn có

pdf14 trang | Chia sẻ: vutrong32 | Lượt xem: 984 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Chương 1: Tổng quan khai phá dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Vì sao phải khám phá tri thức và khai phá dữ liệu? - Khối lượng dữ liệu lớn - Nhu cầu trợ giúp nhanh ra quyết định - Tìm kiếm tri thức tiềm ẩn - Tìm kiếm các mô hình, dự báo ẩn sâu trong cơ sở dữ liệu Chương 1: Tổng quan Khám phá tri thức là gì? Khám phá kiến thức là quá trình xác định giá trị, tính hữu ích, và các mô hình tối ưu trong hệ cơ sở dữ liệu. Khai phá dữ liệu là gì? Khai phá dữ liệu là một bước trong quá trình phát hiện kiến thức bao gồm các thuật toán khai thác hệ dữ liệu theo các phương pháp cụ thể để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Chương 1: Tổng quan Tiến trình KDD Raw data Operational database input Data PreProcessing Data Mining PostProcessing Result Utilization Time base selection Cleaned verified focused Eval of interestingness Selected useable paterns Chương 1: Tổng quan Lợi ích của khai phá dữ liệu? - Cung cấp tri thức hỗ trợ ra quyết định - Dự báo - Khái quát dữ liệu Chương 1: Tổng quan Chương 1: Tổng quan Chương 1: Tổng quan Các lĩnh vực có liên quan đến khám phá tri thức? - Học máy - Thống kê, phân tích dữ liệu - Kho dữ liệu - Hệ chuyên gia Chương 1: Tổng quan Các ứng dụng trong khai phá dữ liệu? - Phân tích dữ liệu, hỗ trợ ra quyết định: * Phân tích quản lý thị trường * Quản lý và phân tích rủi ro * Quản lý và phân tích các sai hỏng - Nghiên cứu khoa học và hệ thống thông tin: * Khai thác dữ liệu web, văn bản text,.. * Quản lý mạng, internet * Khảo sát, cơ sở dữ liệu,... Chương 1: Tổng quan Tiến trình khai phá dữ liệu? Nghiên cứu lĩnh vực và đặt bài toán Tạo và thu thập dữ liệu đầu vào Tiền xử lý dữ liệu: làm sạch,mã hóa,.. Rút gọn/chiều Lựa chọn tác vụ khai phá dữ liệu Chương 1: Tổng quan Tiến trình khai phá dữ liệu? (tt) Chọn phương pháp khai phá dữ liệu Khai phá dữ liệu: Tìm kiếm tri thức Đánh giá mẫu tìm được Biểu diễn tri thức Sử dụng các tri thức vừa khám phá Chương 1: Tổng quan Các kỹ thuật khai phá dữ liệu? - Kỹ thuật khai phá dữ liệu mô tả: * Mô tả về các tính chất hoặc các đặc tính chung của dữ liệu tring cơ sở dữ liệu hiện có * Các kỹ thuật này gồm có: Phân cụm (clustering), phân tích luật kết hợp (association rules) - Kỹ thuật khai phá dữ liệu dự đoán: * Đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. * Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regession) Chương 1: Tổng quan Các phương pháp khai phá dữ liệu thông dụng? - Phân lớp dữ liệu: dự đoán nhãn lớp cho các mẫu dữ liệu - Phân cụm dữ liệu: nhóm các đối tượng tương tự nhau vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng - Hồi quy: ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực - Luật kết hợp: phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Chương 1: Tổng quan Những khó khăn trong khai phá dữ liệu? - Dữ liệu lớn, kích thước lớn - Dữ liệu động - Các trường dữ liệu không phù hợp - Các giá trị bị thiếu - Các trường dữ liệu bị thiếu - Quá phù hợp - Khả năng biểu đạt mẫu - Sự tương tác với người sử dụng các tri thức sẵn có Chương 1: Tổng quan Một số công cụ hỗ trợ trong khai phá dữ liệu? - YALE : công cụ miễn phí cho học máy và khai phá dữ liệu - Weka: Phần mềm mã nguồn mở phục vụ cho khai phá dữ liệu viết bằng Java - Tanagra: Phần mềm thống kê và khai phá dữ liệu mã nguồn mở Chương 1: Tổng quan

Các file đính kèm theo tài liệu này:

  • pdfchuong_1_tong_quan_8487.pdf