Game mạng xã hội – Làm thế nào để xem KPI
Hadoop là một framework hiệu quả cho các ứng dụng
phân tán.
Hadoop gồm 2 thành phần chính là HDFS là MapReduce
Pig là một ngôn ngữ luồng dữ liệu được sử dụng trong
việc phân tích lượng dữ liệu lớn
Sử dụng Pig cùng hệ thống Hadoop để phân tích dữ liệu
người chơi, tạo các báo cáo KPI hàng ngày, hàng giờ.
13 trang |
Chia sẻ: hao_hao | Lượt xem: 1970 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Game mạng xã hội – Làm thế nào để xem KPI, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Game mạng xã hội
– Làm thế nào để xem KPI
Le Kim Dung
DeNA Hanoi
March 15, 2013
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Nội dung
Hadoop
Hadoop là gì?
Hadoop hoạt động như thế nào?
Pig
Kiến trúc phân tích cho game mạng xã hội
References
Q&A
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Hadoop là gì?
Hadoop là một framework mã nguồn mở trên nền Java
hỗ trợ xử lý dữ liệu lớn trong môi trường tính toán phân
tán.
Efficient distribution
to multiple machines
Distributed
Processing
Distributed
Data Storage
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Hadoop hoạt động như thế nào?
Thành phần chính của Hadoop: HDFS và
MapReduce
Hadoop Distributed File System: lưu trữ dữ liệu phân cụm
có khả năng tự sửa lỗi với băng thông cao.
MapReduce: quản lý tài nguyên phân tán có khả năng chịu
lỗi và lập lịch xử lý song song lượng dữ liệu lớn.
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Hadoop hoạt động như thế nào?
Hadoop Distributed File System
File dữ liệu được chia thành các blocks sau đó được nhân
rộng trên các cụm (Hadoop cluster)
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Tối ưu:
• Throughput
• Put/Get/Delete
• Appends
Nhân rộng block:
• Durability
• Availability
• Throughput
Hadoop hoạt động như thế nào?
Hadoop Distributed File System
Các block nhân rộng được phân tán trên các máy chủ và
tủ máy chủ (rack)
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Hadoop hoạt động như thế nào?
MapReduce
Công việc được chia nhỏ thành các nhiệm vụ, sau đó các
nhiệm vụ này được lập lịch để gần với dữ liệu nhất có
thể.
Huge calculation task
Result
Map
Reduced
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Hadoop hoạt động như thế nào?
MapReduce
Các mức phân phối nhiệm vụ:
• Cùng máy chủ với dữ liệu
(local disk)
• Cùng tủ máy chủ với dữ liệu
(rack/leaf switch)
• Nơi có bộ nhớ trống (cross
rack)
Tối ưu:
• Xử lý theo khối
• Khôi phục lỗi
Hệ thống phát hiện các nhiệm vụ bị trễ và thực hiện song song các
nhiệm vụ trên cùng một khối dữ liệu
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Pig
Pig là một ngôn ngữ script gần giống với SQL cho phép
thực thi một cách dễ dàng các tiến trình Map Reduce
phức tạp
A = LOAD ‘myfile' AS (id: int, name: chararray, date:
chararray, num: int);
B = GROUP A BY date PARALLEL 20;
C = FOREACH B GENERATE
group AS date,
SUM(num) AS total;
D = ORDER C BY date PARALLEL 1;
STORE D INTO ‘output’;
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Kiến trúc phân tích game mạng xã hội
Big Data
Pig
Combo
Log
Combo
Log
Combo
Log
Data
Processing
t
r i
Report Mail
Games
Real time
Hourly
Ad-hoc
Hourly
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Tổng kết
Hadoop là một framework hiệu quả cho các ứng dụng
phân tán.
Hadoop gồm 2 thành phần chính là HDFS là MapReduce
Pig là một ngôn ngữ luồng dữ liệu được sử dụng trong
việc phân tích lượng dữ liệu lớn
Sử dụng Pig cùng hệ thống Hadoop để phân tích dữ liệu
người chơi, tạo các báo cáo KPI hàng ngày, hàng giờ.
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Tài liệu tham khảo
Juji Ukai - Basics of SG Analytics
How to Make $10M/month Games - January 8, 2013.
Juji Ukai – Hadoop Trainning – May 24, 2011.
Amr Awadallah - Introducing Apache Hadoop: The
Modern Data Operating System - November 16, 2011.
hadoop.html
Copyright (C) 2013 DeNA Co.,Ltd. All Rights
Reserved.
Thank you!
Các file đính kèm theo tài liệu này:
- slidedunglevn_84.pdf