Chương 1: Tổng quan khai phá dữ liệu
Những khó khăn trong khai phá dữ liệu?
- Dữ liệu lớn, kích thước lớn
- Dữ liệu động
- Các trường dữ liệu không phù hợp
- Các giá trị bị thiếu
- Các trường dữ liệu bị thiếu
- Quá phù hợp
- Khả năng biểu đạt mẫu
- Sự tương tác với người sử dụng các tri thức sẵn có
14 trang |
Chia sẻ: vutrong32 | Lượt xem: 1073 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Chương 1: Tổng quan khai phá dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Vì sao phải khám phá tri thức và khai phá dữ liệu?
- Khối lượng dữ liệu lớn
- Nhu cầu trợ giúp nhanh ra quyết định
- Tìm kiếm tri thức tiềm ẩn
- Tìm kiếm các mô hình, dự báo ẩn sâu trong cơ
sở dữ liệu
Chương 1: Tổng quan
Khám phá tri thức là gì?
Khám phá kiến thức là quá trình xác định giá trị,
tính hữu ích, và các mô hình tối ưu trong hệ cơ
sở dữ liệu.
Khai phá dữ liệu là gì?
Khai phá dữ liệu là một bước trong quá trình
phát hiện kiến thức bao gồm các thuật toán khai
thác hệ dữ liệu theo các phương pháp cụ thể để
tìm ra các mẫu hoặc các mô hình trong dữ liệu.
Chương 1: Tổng quan
Tiến trình KDD
Raw data
Operational
database
input Data PreProcessing
Data Mining PostProcessing Result
Utilization
Time base
selection
Cleaned
verified
focused
Eval of
interestingness
Selected
useable
paterns
Chương 1: Tổng quan
Lợi ích của khai phá dữ liệu?
- Cung cấp tri thức hỗ trợ ra quyết định
- Dự báo
- Khái quát dữ liệu
Chương 1: Tổng quan
Chương 1: Tổng quan
Chương 1: Tổng quan
Các lĩnh vực có liên quan đến khám phá tri thức?
- Học máy
- Thống kê, phân tích dữ liệu
- Kho dữ liệu
- Hệ chuyên gia
Chương 1: Tổng quan
Các ứng dụng trong khai phá dữ liệu?
- Phân tích dữ liệu, hỗ trợ ra quyết định:
* Phân tích quản lý thị trường
* Quản lý và phân tích rủi ro
* Quản lý và phân tích các sai hỏng
- Nghiên cứu khoa học và hệ thống thông tin:
* Khai thác dữ liệu web, văn bản text,..
* Quản lý mạng, internet
* Khảo sát, cơ sở dữ liệu,...
Chương 1: Tổng quan
Tiến trình khai phá dữ liệu?
Nghiên cứu lĩnh vực và đặt bài toán
Tạo và thu thập dữ liệu đầu vào
Tiền xử lý dữ liệu: làm sạch,mã hóa,..
Rút gọn/chiều
Lựa chọn tác vụ khai phá dữ liệu
Chương 1: Tổng quan
Tiến trình khai phá dữ liệu? (tt)
Chọn phương pháp khai phá dữ liệu
Khai phá dữ liệu: Tìm kiếm tri thức
Đánh giá mẫu tìm được
Biểu diễn tri thức
Sử dụng các tri thức vừa khám phá
Chương 1: Tổng quan
Các kỹ thuật khai phá dữ liệu?
- Kỹ thuật khai phá dữ liệu mô tả:
* Mô tả về các tính chất hoặc các đặc tính chung của dữ liệu
tring cơ sở dữ liệu hiện có
* Các kỹ thuật này gồm có: Phân cụm (clustering), phân tích
luật kết hợp (association rules)
- Kỹ thuật khai phá dữ liệu dự đoán:
* Đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện
thời.
* Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy
(regession)
Chương 1: Tổng quan
Các phương pháp khai phá dữ liệu thông dụng?
- Phân lớp dữ liệu: dự đoán nhãn lớp cho các
mẫu dữ liệu
- Phân cụm dữ liệu: nhóm các đối tượng tương tự
nhau vào các cụm sao cho các đối tượng thuộc
cùng một lớp là tương đồng
- Hồi quy: ánh xạ mục dữ liệu thành một biến dự
đoán có giá trị thực
- Luật kết hợp: phát hiện và đưa ra các mối liên
hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu
Chương 1: Tổng quan
Những khó khăn trong khai phá dữ liệu?
- Dữ liệu lớn, kích thước lớn
- Dữ liệu động
- Các trường dữ liệu không phù hợp
- Các giá trị bị thiếu
- Các trường dữ liệu bị thiếu
- Quá phù hợp
- Khả năng biểu đạt mẫu
- Sự tương tác với người sử dụng các tri thức sẵn
có
Chương 1: Tổng quan
Một số công cụ hỗ trợ trong khai phá dữ liệu?
- YALE : công cụ miễn phí cho học máy và khai
phá dữ liệu
- Weka: Phần mềm mã nguồn mở phục vụ cho
khai phá dữ liệu viết bằng Java
- Tanagra: Phần mềm thống kê và khai phá dữ
liệu mã nguồn mở
Chương 1: Tổng quan
Các file đính kèm theo tài liệu này:
- chuong_1_tong_quan_8487.pdf