Bài giảng Quy trình dự báo, khảo sát dữ liệu, và lựa chọn mô hình

Các thành phần của chuỗi thời gian • Chu kỳ (C) –biến động trong lượng cầu được lặp lại lên lên xuống xuống suốt một quãng thời gian dài (nghĩa là trên một năm, thường từ 2-10 năm). –do sự tương tác của các nhân tố tác động đến nền kinh tế. • Biến đổi ngẫu nhiên (I) –biến động trong lượng cầu không theo một mẫu hình nào và hầu như không thể dự đoán; xảy ra trong thời gian ngắn và gần như không lặp lại. –do ảnh hưởng của những biến đổi ngẫu nhiên hoặc những biến cố bất ngờ (động đất, chiến tranh, cuộc biến loạn chính trị).

pdf43 trang | Chia sẻ: maiphuongtl | Lượt xem: 9007 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Quy trình dự báo, khảo sát dữ liệu, và lựa chọn mô hình, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 2 QUY TRÌNH DỰ BÁO, KHẢO SÁT DỮ LIỆU, VÀ LỰA CHỌN MÔ HÌNH 1 Quy trình dự báo ƒ Theo Wilson và Keating, quy trình dự báo gồm 9 bước 2 1. Xác định mục tiêu • Trình bày rõ ràng các mục tiêu, kể cả dự báo sẽ được sử dụng như thế nào trong bối cảnh cần quyết định. • Các mục tiêu và ứng dụng của dự báo cần được thảo luận giữa những cá nhân liên quan trong việc chuẩn bị dự báo và những người sẽ sử dụng kết quả. 3 2. Quyết định cái gì cần dự báo • Xác định rõ ràng cái gì cần dự báo, ví dụ: – Đối với dự báo doanh số truyền thống ta phải quyết định sẽ dự báo doanh số tính bằng đơn vị hay bằng tiền; tổng doanh số hay doanh số theo mặt hàng hay doanh số theo vùng; doanh số nội địa, doanh số xuất khẩu hay cả hai? –Một bệnh viện có thể muốn dự báo tải trọng bệnh nhân, có thể được xác định là số bệnh nhân nhập viện, số bệnh nhân xuất viện, số ngày một bệnh nhân nằm viện, hay số ngày một bệnh nhân bị nguy kịch. 4 3. Nhận dạng các khía cạnh thời gian • Độ dài và tính định kỳ của dự báo: Dự báo được cần đến trên cơ sở hàng năm, hàng quý, hàng tháng, hàng tuần hay hàng ngày? Trong một vài tình huống, thời đoạn thậm chí còn ngắn hơn có thể là cần thiết. Ví dụ: – GDP: năm – Kim ngạch XNK: năm hoặc quý – Doanh số: quý • Sự cấp bách của dự báo 5 4. Xem xét dữ liệu • Số lượng và loại dữ liệu sẵn có • Nguồn dữ liệu: – Dữ liệu nội bộ: dễ có được; nhưng đôi khi không được lưu giữ dưới dạng hữu ích (ví dụ như trên cơ sở hàng năm thay vì cho các thời đoạn ngắn hơn), chỉ những giá trị bằng tiền là sẵn có thay vì bằng số đơn vị. – Dữ liệu bên ngoài: sẵn có từ rất nhiều nguồn; hầu hết ở dưới dạng in và điện tử. 6 5. Lựa chọn mô hình • Việc chọn mô hình tuỳ thuộc vào các tiêu chí sau: (1) Mẫu hình thể hiện của dữ liệu (2) Số lượng quan sát sẵn có (3) Tầm xa dự báo (ngắn, trung, hay dài hạn) • Bảng 2-1 tổng kết cách mà các tiêu chí này liên hệ với các phương pháp dự báo định lượng giới thiệu trong bài giảng này. Tiêu chí đầu tiên là quan trọng nhất. 7 Bảng 2-1. Hướng dẫn chọn phương pháp dự báo thích hợp 8 Phương pháp dự báo Mẫu hình dữ liệu Số lượng quan sát Tầm xa dự báo Thơ (hay ngây thơ) Dừng 1 hoặc 2 Rất ngắn hạn Bình quân di động Dừng bằng với số thời kỳ trong bình quân di động Rất ngắn hạn San bằng mũ + Giản đơn Dừng 5 đến 10 Ngắn hạn + Holt’s Xu hướng tuyến tính 10 đến 15 Ngắn đến trung hạn + Winter’s Xu hướng và thời vụ Ít nhất 4 hoặc 5 cho mỗi mùa Ngắn đến trung hạn Bảng 2-1. Hướng dẫn chọn phương pháp dự báo thích hợp (tt) 9 Phương pháp dự báo Mẫu hình dữ liệu Số lượng quan sát Tầm xa dự báo Hồi quy + Xu hướng Xu huớng tuyến tính hoặc phi tuyến tính cĩ hoặc khơng cĩ tính thời vụ. Tối thiểu là 10 với 4 hoặc 5 cho mỗi mùa nếu gồm cĩ tính thời vụ Ngắn đến trung hạn + Nhân quả Cĩ thể xử lý hầu như mọi mẫu hình dữ liệu Tối thiểu là 10 cho mỗi biến độc lập Ngắn, trung và dài hạn Phân tích chuỗi thời gian Cĩ thể xử lý các mẫu hình xu hướng, thời vụ và chu kỳ Đủ để nhìn thấy hai đỉnh và đáy của chu kỳ Ngắn, trung và dài hạn ARIMA Dừng hoặc được biến đổi thành dừng Tối thiểu là 50 Ngắn, trung và dài hạn 6. Đánh giá mô hình • Thông qua các tiêu chuẩn: MAE, MSE, RMSE, … • Phân biệt giữa độ phù hợp và độ chính xác. – Độ phù hợp: Nhìn lại quá khứ mô hình cho kết quả tốt tới mức độ nào. – Độ chính xác: Trong tầm dự báo (tức là ngoài giai đoạn được sử dụng để phát triển mô hình), mô hình cho kết quả tốt tới mức độ nào. 10 Đánh giá mô hình (tt) • Khi có đủ dữ liệu, ta thường sử dụng “holdout” period để đánh giá độ chính xác của dự báo. • Nếu các mô hình được chọn ở giai đoạn 6 không cho một độ chính xác có thể chấp nhận được, bạn sẽ trở về bước 5 và chọn một mô hình khác. 11 Đánh giá mô hình (tt) 12 Đánh giá dự báo • Chọn phương pháp dự báo làm giảm sai số đến mức tối thiểu. • Sai số dự báo là thước đo phản ánh giá trị dự báo gần với giá trị thực tế là bao nhiêu. • Sai số dự báo ở thời kỳ t – Sai số dự báo = giá trị thực tế - giá trị dự báo – Với các dự báo trước một thời kỳ, et = Yt – Ft 13 Đánh giá dự báo • Nếu một mô hình dự báo được đánh giá là tốt thì các sai số dự báo phải nhỏ và dao động của các sai số dự báo không theo một mẫu hình nào cả. • Các phương pháp đánh giá: – Phương pháp thống kê: 7 chỉ tiêu đánh giá độ phù hợp của mô hình dự báo – Phương pháp đồ thị: 2 cách 14 7 chỉ tiêu đánh giá độ phù hợp của mô hình dự báo 15 Sai số bình phương trung bình: 2 n t t=1 e MSE = n ∑ Sai số phần trăm tuyệt đối trung bình: 100% n t t=1 t e YMAPE = n ∑ Sai số trung bình: n t t=1 e ME = n ∑ Sai số tuyệt đối trung bình: n t t=1 e MAE = n ∑ Căn bậc hai của sai số bình phương trung bình: 2 n t t=1 e RMSE = n ∑ Sai số phần trăm trung bình: 100% n t t=1 t e YMPE = n ∑ Hệ số Theil U: ( ) ( ) ( ) ( )− = ÷ = − ÷ −∑ ∑2 21 mô hình đang xem xét mô hình thô "Naive" t t t t U RMSE RMSE Y F Y Y 7 chỉ tiêu đánh giá độ phù hợp của mô hình dự báo • Đối với 6 tiêu chuẩn ME, MAE, MPE, MAPE, MSE và RMSE, các giá trị nhỏ hơn được chọn. • Đối với Theil U, – U = 0, mô hình dự báo một cách hoàn hảo; – U < 1, mô hình dự báo tốt hơn mô hình thô; – U = 1, mô hình dự báo chỉ như mô hình thô; – U > 1, mô hình không dự báo tốt như mô hình thô. 16 7 chỉ tiêu đánh giá độ phù hợp của mô hình dự báo • Sự lựa chọn công thức tính sai số dự báo cụ thể phụ thuộc vào bản chất của dữ liệu. –ME và MPE là những tiêu chuẩn hữu ích trong việc đánh giá độ chệch của dự báo. – Nếu chuỗi dữ liệu tính được chỉ có một vài et lớn thì không nên sử dụng các công thức MSE và RMSE. – Chỉ có MAPE và Theil U được dùng để giải thích các chuỗi số liệu không có cùng đơn vị tính. 17 Ví dụ 2.1 • Một chủ doanh nghiệp sử dụng hai mô hình để dự báo doanh số kinh doanh cho 4 năm quá khứ, với sự quan tâm chỉ tiêu sai số dự báo nào sẽ là phù hợp nhằm lựa chọn mô hình dự báo tốt nhất. Giá trị thực tế Yt Giá trị dự báo, Ft Giá trị thực tế Yt Giá trị dự báo, Ft 15 15,5 15 14,0 Mô hình 1 20 20,0 Mô hình 2 20 18,0 19 18,5 19 21,0 23 27,0 23 24,0 18 Ví dụ 2.1 • Chủ doanh nghiệp chọn hai chỉ tiêu MAE và MSE để đánh giá độ chính xác của mô hình dự báo. Hãy tính hai chỉ tiêu này và quyết định xem trong trường hợp này chỉ tiêu nào là thích hợp cho việc lựa chọn mô hình? • Tính hệ số Theil U 19 Phương pháp đồ thị • Nếu et dao động ngẫu nhiên (xoay quanh trục 0) theo thời gian thì ta có mô hình dự báo tốt. • Vẽ đồ thị giá trị thực và giá trị dự báo trên cùng một hệ trục, nếu 2 giá trị này càng gần nhau thì mô hình dự báo càng chính xác. – Quan sát bước ngoặt: mô hình dự báo tốt là mô hình dự báo đúng những bước ngoặt theo mẫu hình dữ liệu thực. 20 Phương pháp đồ thị 21 7. Chuẩn bị dự báo • Nên sử dụng nhiều hơn một kỹ thuật dự báo mỗi khi có thể. Khi hai phương pháp hay nhiều hơn có các cơ sở thông tin khác nhau được sử dụng, sự kết hợp của chúng sẽ thường xuyên đưa ra các dự báo tốt hơn so với hoặc chỉ một phương pháp mà thôi. 22 8. Trình bày dự báo • Trình bày kết quả dự báo cho những ai dựa vào chúng để ra quyết định • Sự thông đạt rõ ràng có tính quyết định • Cả dạng viết và thuyết trình 23 9. Theo dõi kết quả • Liên tục theo dõi xem các dự báo tốt đến mức nào khi so sánh với các giá trị thực tế quan sát được trong tầm dự báo. • Theo thời gian ngay cả mô hình tốt nhất cũng có thể trở nên kém hơn về mặt độ chính xác và cần phải được xác định lại, hoặc thay bằng một mô hình khác. • Các nhà dự báo có thể học hỏi từ những lỗi lầm của chính họ. 24 Theo dõi dự báo (tt) • Có vài cách để theo dõi sai số dự báo theo thời gian để chắc rằng phương pháp dự báo đang sử dụng còn thích hợp. • Các dự báo có thể vượt khỏi vòng kiểm soát và bắt đầu đưa ra các dự báo không chính xác vì một số lý do. 25 Tín hiệu theo dõi • Tín hiệu theo dõi cho biết dự báo có luôn bị chệch cao hay thấp không. • Được tính lại mỗi thời kỳ khi có các giá trị của sai số tích lũy và MAE “mới (running)” được cập nhật. • So sánh với các giới hạn đã định trước dựa trên sự phán đoán và kinh nghiệm 26 ( )−∑= =Tín hiệu theo dõi, t tY F RSFETS MAE MAE Tín hiệu theo dõi • Các sai số dự báo tiêu biểu tuân theo luật phân phối chuẩn; điều này đưa đến : • Chúng ta có thể định các giới hạn kiểm tra bằng thống kê cho tín hiệu theo dõi tương ứng với phân phối chuẩn quen thuộc. • Các giới hạn kiểm tra ±2 đến ±5 MAE thường được sử dụng nhất. 27 σMAE 0,8 Tín hiệu theo dõi • Những giá trị nằm trong các giới hạn gợi ý – nhưng không bảo đảm – dự báo đang được thực hiện một cách phù hợp. • Sau khi một giá trị ban đầu của MAE đã được tính, MAE có thể được cập nhật bằng cách sử dụng san bằng mũ: 28 ( )α α α − − − = + − = + − 1 1 1 (1 ) t t t t t t MAE MAE e MAE e MAE Đồ thị tín hiệu theo dõi 29 Thời gian Giới hạn kiểm tra dưới Giới hạn kiểm tra trên Tín hiệu đã vượt quá giới hạn Tín hiệu theo dõi Phạm vi chấp nhận Cần có hành động hiệu chỉnh − 0 + Giá trị tín hiệu theo dõi 30 Mức Mức Sai số Thời kỳ yêu cầu, dự báo, Sai số, cộng dồn, t Yt Ft Yt – Ft Σe = Σ(Yt – Ft) MAE TS ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ 1 37 - - - - - 2 40 37,00 3,00 3,00 3,00 1,00 3 41 37,90 3,10 6,10 3,05 2,00 4 37 38,83 -1,83 4,27 2,64 1,62 5 45 38,28 6,72 10,99 3,66 3,00 6 50 40,29 9,69 20,68 4,87 4,25 7 43 43,20 -0,20 20,48 4,09 5,01 8 47 43,14 3,86 24,34 4,06 6,00 9 56 44,30 11,70 36,04 5,01 7,19 10 52 47,81 4,19 40,23 4,92 8,18 11 55 49,06 5,94 46,17 5,02 9,20 12 54 50,84 3,15 49,32 4,85 10,17 Biểu đồ kiểm tra • Cách tiếp cận biểu đồ kiểm tra đòi hỏi phải thiết lập các giới hạn trên và dưới cho từng sai số dự báo (thay vì các sai số tích lũy như trong trường hợp tín hiệu theo dõi). Các giới hạn là các bội số của căn bậc hai của MSE. Các giả định cơ bản là: 1) Các sai số dự báo có phân phối ngẫu nhiên xung quanh giá trị trung bình bằng 0. 2) Phân phối của các sai số là chuẩn tắc. • Trong thực hành, căn bậc hai của MSE được dùng làm ước lượng cho độ lệch chuẩn của phân phối sai số.1 Nghĩa là, 31 s MSE= 2( ) 1 e es n Σ −= − 1 Giá trị thực tế có thể được tính là . Biểu đồ kiểm tra • Nếu dự báo vẫn còn trong phạm vi kiểm soát, các sai số phải rơi vào vùng giới hạn. Còn các điểm rơi ra ngoài vùng giới hạn chính là dấu hiệu cho biết cần có những hiệu chỉnh thích hợp. 32 Biểu đồ kiểm tra • Ngay cả khi các sai số nằm trong vùng giới hạn thì nó cũng cần được kiểm tra để xem xét sự hợp lý của các sai số trong mô hình. • Khi mô hình với các đặc điểm như trên được phát hiện, điều này có nghĩa là các sai số có thể đoán trước và không ngẫu nhiên. Lúc này, một vài điều chỉnh là cần thiết. 33 Bị chệch (quá nhiều quan sát nằm về một phía của đường zêrô) Chu kỳ (sự biến động đi lên hoặc đi xuống theo chu kỳ) Xu hướng (sự biến động đi lên hoặc đi xuống dai dẳng) Khảo sát dữ liệu • Chuỗi thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắp xếp theo thứ tự thời gian. Ví dụ: – Doanh số bán hàng tháng của một công ty – Sản lượng hàng tháng của một loại sản phẩm. • Một chuỗi thời gian có dạng tổng quát như sau: 34 ti t1 t2 . . . tn yi y1 y2 . . . yn Các thành phần của chuỗi thời gian • Xu hướng (T) – biến động từ từ, dài hạn (trong thời gian vài năm) lên hoặc xuống của nhu cầu – do lạm phát, sự tăng dân số, tăng thu nhập cá nhân, sự tăng trưởng hay giảm sút của thị trường hoặc có sự thay đổi công nghệ, v.v… • Mẫu hình thời vụ (S) – biến động trong lượng cầu được lặp lại lên lên xuống xuống xảy ra định kỳ (trong vòng một năm) – do điều kiện thời tiết, khí hậu, tập quán xã hội, tín ngưỡng, v.v… 35 Các thành phần của chuỗi thời gian • Chu kỳ (C) – biến động trong lượng cầu được lặp lại lên lên xuống xuống suốt một quãng thời gian dài (nghĩa là trên một năm, thường từ 2-10 năm). – do sự tương tác của các nhân tố tác động đến nền kinh tế. • Biến đổi ngẫu nhiên (I) – biến động trong lượng cầu không theo một mẫu hình nào và hầu như không thể dự đoán; xảy ra trong thời gian ngắn và gần như không lặp lại. – do ảnh hưởng của những biến đổi ngẫu nhiên hoặc những biến cố bất ngờ (động đất, chiến tranh, cuộc biến loạn chính trị). 36 Các mẫu hình chuỗi thời gian 37 N h u c a à u Thời gian Xu hướng Biến động ngẫu nhiên N h u c a à u Thời gian Mẫu hình thời vụ Thời gian N h u c a à u Chu kỳ N h u c a à u Thời gian Xu hướng có mẫu hình thời vụ Nguồn: Russel & Taylor, 1998 Các mẫu hình chuỗi thời gian 38Nguồn: Nahmias, Steven, 2001 Các mẫu hình chuỗi thời gian 39 Xu hướng Biến động ngẫu nhiên Biến động thời vụ 90 89 88 Nguồn: Stevenson Chu kỳ Các mẫu hình chuỗi thời gian 40Nguồn: Reid, R. Dan và Nada R. Sanders Các ví dụ 41 Hình 2.1: GDP qua các năm (tính khuynh hướng) Các ví dụ 42Hình 2.2: Nhà riêng mới xây (tính thời vụ và xu hướng) Các ví dụ 43Hình 2.3: Doanh số của Leo Burnet (tính xu hướng tăng)

Các file đính kèm theo tài liệu này:

  • pdfchuong_2_quy_trinh_du_bao_5099.pdf