Bài giảng Quy trình dự báo, khảo sát dữ liệu, và lựa chọn mô hình
Các thành phần của chuỗi thời gian
• Chu kỳ (C)
–biến động trong lượng cầu được lặp lại lên lên xuống
xuống suốt một quãng thời gian dài (nghĩa là trên
một năm, thường từ 2-10 năm).
–do sự tương tác của các nhân tố tác động đến nền kinh tế.
• Biến đổi ngẫu nhiên (I)
–biến động trong lượng cầu không theo một mẫu hình
nào và hầu như không thể dự đoán; xảy ra trong thời
gian ngắn và gần như không lặp lại.
–do ảnh hưởng của những biến đổi ngẫu nhiên hoặc
những biến cố bất ngờ (động đất, chiến tranh, cuộc
biến loạn chính trị).
43 trang |
Chia sẻ: maiphuongtl | Lượt xem: 9007 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Quy trình dự báo, khảo sát dữ liệu, và lựa chọn mô hình, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 2
QUY TRÌNH DỰ BÁO,
KHẢO SÁT DỮ LIỆU,
VÀ LỰA CHỌN MÔ HÌNH
1
Quy trình dự báo
Theo
Wilson
và
Keating,
quy
trình
dự
báo
gồm
9
bước
2
1. Xác định mục tiêu
• Trình bày rõ ràng các mục tiêu, kể cả dự báo
sẽ được sử dụng như thế nào trong bối cảnh
cần quyết định.
• Các mục tiêu và ứng dụng của dự báo cần
được thảo luận giữa những cá nhân liên quan
trong việc chuẩn bị dự báo và những người sẽ
sử dụng kết quả.
3
2. Quyết định cái gì cần dự báo
• Xác định rõ ràng cái gì cần dự báo, ví dụ:
– Đối với dự báo doanh số truyền thống ta phải
quyết định sẽ dự báo doanh số tính bằng đơn vị
hay bằng tiền; tổng doanh số hay doanh số theo
mặt hàng hay doanh số theo vùng; doanh số nội
địa, doanh số xuất khẩu hay cả hai?
–Một bệnh viện có thể muốn dự báo tải trọng
bệnh nhân, có thể được xác định là số bệnh nhân
nhập viện, số bệnh nhân xuất viện, số ngày một
bệnh nhân nằm viện, hay số ngày một bệnh nhân
bị nguy kịch.
4
3. Nhận dạng các khía cạnh thời gian
• Độ dài và tính định kỳ của dự báo: Dự báo
được cần đến trên cơ sở hàng năm, hàng quý,
hàng tháng, hàng tuần hay hàng ngày? Trong
một vài tình huống, thời đoạn thậm chí còn
ngắn hơn có thể là cần thiết. Ví dụ:
– GDP: năm
– Kim ngạch XNK: năm hoặc quý
– Doanh số: quý
• Sự cấp bách của dự báo
5
4. Xem xét dữ liệu
• Số lượng và loại dữ liệu sẵn có
• Nguồn dữ liệu:
– Dữ liệu nội bộ: dễ có được; nhưng đôi khi
không được lưu giữ dưới dạng hữu ích (ví dụ như
trên cơ sở hàng năm thay vì cho các thời đoạn
ngắn hơn), chỉ những giá trị bằng tiền là sẵn có
thay vì bằng số đơn vị.
– Dữ liệu bên ngoài: sẵn có từ rất nhiều nguồn;
hầu hết ở dưới dạng in và điện tử.
6
5. Lựa chọn mô hình
• Việc chọn mô hình tuỳ thuộc vào các tiêu
chí sau:
(1) Mẫu hình thể hiện của dữ liệu
(2) Số lượng quan sát sẵn có
(3) Tầm xa dự báo (ngắn, trung, hay dài hạn)
• Bảng 2-1 tổng kết cách mà các tiêu chí này
liên hệ với các phương pháp dự báo định
lượng giới thiệu trong bài giảng này. Tiêu
chí đầu tiên là quan trọng nhất.
7
Bảng 2-1. Hướng dẫn chọn
phương pháp dự báo thích hợp
8
Phương pháp
dự báo
Mẫu hình
dữ liệu
Số lượng
quan sát
Tầm xa
dự báo
Thơ (hay
ngây thơ)
Dừng 1 hoặc 2 Rất ngắn hạn
Bình quân
di động
Dừng bằng với số thời
kỳ trong bình
quân di động
Rất ngắn hạn
San bằng mũ
+ Giản đơn Dừng 5 đến 10 Ngắn hạn
+ Holt’s Xu hướng
tuyến tính
10 đến 15 Ngắn đến
trung hạn
+ Winter’s Xu hướng và
thời vụ
Ít nhất 4 hoặc 5
cho mỗi mùa
Ngắn đến
trung hạn
Bảng 2-1. Hướng dẫn chọn
phương pháp dự báo thích hợp (tt)
9
Phương pháp
dự báo
Mẫu hình
dữ liệu
Số lượng
quan sát
Tầm xa
dự báo
Hồi quy
+ Xu hướng Xu huớng tuyến tính
hoặc phi tuyến tính
cĩ hoặc khơng cĩ
tính thời vụ.
Tối thiểu là 10 với 4
hoặc 5 cho mỗi mùa
nếu gồm cĩ tính thời
vụ
Ngắn đến
trung hạn
+ Nhân quả Cĩ thể xử lý hầu như
mọi mẫu hình dữ liệu
Tối thiểu là 10 cho
mỗi biến độc lập
Ngắn,
trung và
dài hạn
Phân tích
chuỗi thời
gian
Cĩ thể xử lý các mẫu
hình xu hướng, thời
vụ và chu kỳ
Đủ để nhìn thấy hai
đỉnh và đáy của chu
kỳ
Ngắn,
trung và
dài hạn
ARIMA Dừng hoặc được biến
đổi thành dừng
Tối thiểu là 50 Ngắn,
trung và
dài hạn
6. Đánh giá mô hình
• Thông qua các tiêu chuẩn: MAE, MSE,
RMSE, …
• Phân biệt giữa độ phù hợp và độ chính xác.
– Độ phù hợp: Nhìn lại quá khứ mô hình cho kết
quả tốt tới mức độ nào.
– Độ chính xác: Trong tầm dự báo (tức là ngoài
giai đoạn được sử dụng để phát triển mô hình),
mô hình cho kết quả tốt tới mức độ nào.
10
Đánh giá mô hình (tt)
• Khi có đủ dữ liệu, ta thường sử dụng
“holdout” period để đánh giá độ chính xác
của dự báo.
• Nếu các mô hình được chọn ở giai đoạn 6
không cho một độ chính xác có thể chấp
nhận được, bạn sẽ trở về bước 5 và chọn một
mô hình khác.
11
Đánh giá mô hình (tt)
12
Đánh giá dự báo
• Chọn phương pháp dự báo làm giảm sai số
đến mức tối thiểu.
• Sai số dự báo là thước đo phản ánh giá trị dự
báo gần với giá trị thực tế là bao nhiêu.
• Sai số dự báo ở thời kỳ t
– Sai số dự báo = giá trị thực tế - giá trị dự báo
– Với các dự báo trước một thời kỳ,
et = Yt – Ft
13
Đánh giá dự báo
• Nếu một mô hình dự báo được đánh giá là tốt
thì các sai số dự báo phải nhỏ và dao động
của các sai số dự báo không theo một mẫu
hình nào cả.
• Các phương pháp đánh giá:
– Phương pháp thống kê: 7 chỉ tiêu đánh giá độ phù
hợp của mô hình dự báo
– Phương pháp đồ thị: 2 cách
14
7 chỉ tiêu đánh giá độ phù hợp của
mô hình dự báo
15
Sai số bình phương
trung bình:
2
n
t
t=1
e
MSE =
n
∑
Sai số phần trăm
tuyệt đối trung bình:
100%
n
t
t=1 t
e
YMAPE =
n
∑
Sai số trung bình:
n
t
t=1
e
ME =
n
∑
Sai số tuyệt đối
trung bình:
n
t
t=1
e
MAE =
n
∑
Căn bậc hai của sai số
bình phương trung bình:
2
n
t
t=1
e
RMSE =
n
∑
Sai số phần trăm
trung bình:
100%
n
t
t=1 t
e
YMPE =
n
∑
Hệ số Theil U:
( ) ( )
( ) ( )−
= ÷
= − ÷ −∑ ∑2 21
mô hình đang xem xét mô hình thô "Naive"
t t t t
U RMSE RMSE
Y F Y Y
7 chỉ tiêu đánh giá độ phù hợp của
mô hình dự báo
• Đối với 6 tiêu chuẩn ME, MAE, MPE,
MAPE, MSE và RMSE, các giá trị nhỏ hơn
được chọn.
• Đối với Theil U,
– U = 0, mô hình dự báo một cách hoàn hảo;
– U < 1, mô hình dự báo tốt hơn mô hình thô;
– U = 1, mô hình dự báo chỉ như mô hình thô;
– U > 1, mô hình không dự báo tốt như mô hình
thô.
16
7 chỉ tiêu đánh giá độ phù hợp của
mô hình dự báo
• Sự lựa chọn công thức tính sai số dự báo cụ
thể phụ thuộc vào bản chất của dữ liệu.
–ME và MPE là những tiêu chuẩn hữu ích trong
việc đánh giá độ chệch của dự báo.
– Nếu chuỗi dữ liệu tính được chỉ có một vài et lớn
thì không nên sử dụng các công thức MSE và
RMSE.
– Chỉ có MAPE và Theil U được dùng để giải thích
các chuỗi số liệu không có cùng đơn vị tính.
17
Ví dụ 2.1
• Một chủ doanh nghiệp sử dụng hai mô hình để dự
báo doanh số kinh doanh cho 4 năm quá khứ, với sự
quan tâm chỉ tiêu sai số dự báo nào sẽ là phù hợp
nhằm lựa chọn mô hình dự báo tốt nhất.
Giá trị
thực
tế
Yt
Giá trị
dự
báo,
Ft
Giá trị
thực tế
Yt
Giá trị
dự
báo,
Ft
15 15,5 15 14,0
Mô hình 1 20 20,0 Mô hình 2 20 18,0
19 18,5 19 21,0
23 27,0 23 24,0 18
Ví dụ 2.1
• Chủ doanh nghiệp chọn hai chỉ tiêu MAE và
MSE để đánh giá độ chính xác của mô hình
dự báo. Hãy tính hai chỉ tiêu này và quyết
định xem trong trường hợp này chỉ tiêu nào là
thích hợp cho việc lựa chọn mô hình?
• Tính hệ số Theil U
19
Phương pháp đồ thị
• Nếu et dao động ngẫu nhiên (xoay quanh trục
0) theo thời gian thì ta có mô hình dự báo tốt.
• Vẽ đồ thị giá trị thực và giá trị dự báo trên
cùng một hệ trục, nếu 2 giá trị này càng gần
nhau thì mô hình dự báo càng chính xác.
– Quan sát bước ngoặt: mô hình dự báo tốt là mô
hình dự báo đúng những bước ngoặt theo mẫu
hình dữ liệu thực.
20
Phương pháp đồ thị
21
7. Chuẩn bị dự báo
• Nên sử dụng nhiều hơn một kỹ thuật dự báo
mỗi khi có thể. Khi hai phương pháp hay
nhiều hơn có các cơ sở thông tin khác nhau
được sử dụng, sự kết hợp của chúng sẽ
thường xuyên đưa ra các dự báo tốt hơn so
với hoặc chỉ một phương pháp mà thôi.
22
8. Trình bày dự báo
• Trình bày kết quả dự báo cho những ai dựa
vào chúng để ra quyết định
• Sự thông đạt rõ ràng có tính quyết định
• Cả dạng viết và thuyết trình
23
9. Theo dõi kết quả
• Liên tục theo dõi xem các dự báo tốt đến
mức nào khi so sánh với các giá trị thực tế
quan sát được trong tầm dự báo.
• Theo thời gian ngay cả mô hình tốt nhất cũng
có thể trở nên kém hơn về mặt độ chính xác
và cần phải được xác định lại, hoặc thay bằng
một mô hình khác.
• Các nhà dự báo có thể học hỏi từ những lỗi
lầm của chính họ.
24
Theo dõi dự báo (tt)
• Có vài cách để theo dõi sai số dự báo theo thời
gian để chắc rằng phương pháp dự báo đang sử
dụng còn thích hợp.
• Các dự báo có thể vượt khỏi vòng kiểm soát và
bắt đầu đưa ra các dự báo không chính xác vì
một số lý do.
25
Tín hiệu theo dõi
• Tín hiệu theo dõi cho biết dự báo có luôn bị
chệch cao hay thấp không.
• Được tính lại mỗi thời kỳ khi có các giá trị
của sai số tích lũy và MAE “mới (running)”
được cập nhật.
• So sánh với các giới hạn đã định trước dựa
trên sự phán đoán và kinh nghiệm
26
( )−∑= =Tín hiệu theo dõi, t tY F RSFETS
MAE MAE
Tín hiệu theo dõi
• Các sai số dự báo tiêu biểu tuân theo luật
phân phối chuẩn; điều này đưa đến :
• Chúng ta có thể định các giới hạn kiểm tra
bằng thống kê cho tín hiệu theo dõi tương
ứng với phân phối chuẩn quen thuộc.
• Các giới hạn kiểm tra ±2 đến ±5 MAE
thường được sử dụng nhất.
27
σMAE 0,8
Tín hiệu theo dõi
• Những giá trị nằm trong các giới hạn gợi ý –
nhưng không bảo đảm – dự báo đang được
thực hiện một cách phù hợp.
• Sau khi một giá trị ban đầu của MAE đã được
tính, MAE có thể được cập nhật bằng cách sử
dụng san bằng mũ:
28
( )α
α α
− −
−
= + −
= + −
1 1
1 (1 )
t t t t
t t
MAE MAE e MAE
e MAE
Đồ thị tín hiệu theo dõi
29
Thời gian
Giới hạn kiểm tra dưới
Giới hạn kiểm tra trên
Tín hiệu đã vượt
quá giới hạn
Tín hiệu theo dõi
Phạm vi chấp nhận
Cần có hành động
hiệu chỉnh
−
0
+
Giá trị tín hiệu theo dõi
30
Mức Mức Sai số
Thời kỳ yêu cầu, dự báo, Sai số, cộng dồn,
t Yt Ft Yt – Ft Σe = Σ(Yt – Ft) MAE TS
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
1 37 - - - - -
2 40 37,00 3,00 3,00 3,00 1,00
3 41 37,90 3,10 6,10 3,05 2,00
4 37 38,83 -1,83 4,27 2,64 1,62
5 45 38,28 6,72 10,99 3,66 3,00
6 50 40,29 9,69 20,68 4,87 4,25
7 43 43,20 -0,20 20,48 4,09 5,01
8 47 43,14 3,86 24,34 4,06 6,00
9 56 44,30 11,70 36,04 5,01 7,19
10 52 47,81 4,19 40,23 4,92 8,18
11 55 49,06 5,94 46,17 5,02 9,20
12 54 50,84 3,15 49,32 4,85 10,17
Biểu đồ kiểm tra
• Cách tiếp cận biểu đồ kiểm tra đòi hỏi phải thiết lập các
giới hạn trên và dưới cho từng sai số dự báo (thay vì các sai
số tích lũy như trong trường hợp tín hiệu theo dõi). Các giới
hạn là các bội số của căn bậc hai của MSE. Các giả định cơ
bản là:
1) Các sai số dự báo có phân phối ngẫu nhiên xung quanh giá trị trung
bình bằng 0.
2) Phân phối của các sai số là chuẩn tắc.
• Trong thực hành, căn bậc hai của MSE được dùng làm ước
lượng cho độ lệch chuẩn của phân phối sai số.1 Nghĩa là,
31
s MSE=
2( )
1
e es
n
Σ −= −
1 Giá trị thực tế có thể được tính là .
Biểu đồ kiểm tra
• Nếu dự báo vẫn còn trong phạm vi kiểm soát, các
sai số phải rơi vào vùng giới hạn. Còn các điểm rơi
ra ngoài vùng giới hạn chính là dấu hiệu cho biết
cần có những hiệu chỉnh thích hợp.
32
Biểu đồ kiểm tra
• Ngay cả khi các sai số nằm trong vùng giới hạn thì nó cũng
cần được kiểm tra để xem xét sự hợp lý của các sai số trong
mô hình.
• Khi mô hình với các đặc điểm như trên được phát hiện, điều
này có nghĩa là các sai số có thể đoán trước và không ngẫu
nhiên. Lúc này, một vài điều chỉnh là cần thiết. 33
Bị chệch (quá nhiều quan sát nằm
về một phía của đường zêrô)
Chu kỳ (sự biến động đi lên
hoặc đi xuống theo chu kỳ)
Xu hướng (sự biến động đi lên
hoặc đi xuống dai dẳng)
Khảo sát dữ liệu
• Chuỗi thời gian là một dãy các giá trị của
hiện tượng nghiên cứu được sắp xếp theo thứ
tự thời gian. Ví dụ:
– Doanh số bán hàng tháng của một công ty
– Sản lượng hàng tháng của một loại sản phẩm.
• Một chuỗi thời gian có dạng tổng quát như
sau:
34
ti t1 t2 . . . tn
yi y1 y2 . . . yn
Các thành phần của chuỗi thời gian
• Xu hướng (T)
– biến động từ từ, dài hạn (trong thời gian vài năm) lên
hoặc xuống của nhu cầu
– do lạm phát, sự tăng dân số, tăng thu nhập cá nhân,
sự tăng trưởng hay giảm sút của thị trường hoặc có sự
thay đổi công nghệ, v.v…
• Mẫu hình thời vụ (S)
– biến động trong lượng cầu được lặp lại lên lên xuống
xuống xảy ra định kỳ (trong vòng một năm)
– do điều kiện thời tiết, khí hậu, tập quán xã hội, tín
ngưỡng, v.v…
35
Các thành phần của chuỗi thời gian
• Chu kỳ (C)
– biến động trong lượng cầu được lặp lại lên lên xuống
xuống suốt một quãng thời gian dài (nghĩa là trên
một năm, thường từ 2-10 năm).
– do sự tương tác của các nhân tố tác động đến nền
kinh tế.
• Biến đổi ngẫu nhiên (I)
– biến động trong lượng cầu không theo một mẫu hình
nào và hầu như không thể dự đoán; xảy ra trong thời
gian ngắn và gần như không lặp lại.
– do ảnh hưởng của những biến đổi ngẫu nhiên hoặc
những biến cố bất ngờ (động đất, chiến tranh, cuộc
biến loạn chính trị). 36
Các mẫu hình chuỗi thời gian
37
N
h
u
c
a
à
u
Thời gian
Xu hướng
Biến động
ngẫu nhiên
N
h
u
c
a
à
u
Thời gian
Mẫu hình
thời vụ
Thời gian
N
h
u
c
a
à
u
Chu kỳ
N
h
u
c
a
à
u
Thời gian
Xu hướng có
mẫu hình thời vụ
Nguồn: Russel & Taylor, 1998
Các mẫu hình chuỗi thời gian
38Nguồn: Nahmias, Steven, 2001
Các mẫu hình chuỗi thời gian
39
Xu hướng
Biến động
ngẫu nhiên
Biến động thời vụ
90
89
88
Nguồn: Stevenson
Chu kỳ
Các mẫu hình chuỗi thời gian
40Nguồn: Reid, R. Dan và Nada R. Sanders
Các ví dụ
41
Hình 2.1: GDP qua các năm (tính khuynh hướng)
Các ví dụ
42Hình 2.2: Nhà riêng mới xây (tính thời vụ và xu hướng)
Các ví dụ
43Hình 2.3: Doanh số của Leo Burnet (tính xu hướng tăng)
Các file đính kèm theo tài liệu này:
- chuong_2_quy_trinh_du_bao_5099.pdf