Nguyên lý thống kê kinh tế

C1. Giới thiệu môn học C2. Thu thập dữ liệu C3. Tóm tắt và trình bày dữ liệu bằng bảng biểu C4. Tóm tắt dữ liệu bằng các đại lượng số C5. Phương pháp chỉ số C6. Phân phối chuẩn – Phân phối mẫu C7. Ước lượng khoảng tin cậy C8. Kiểm định tham số C9. Phân tích phương sai (ANOVA) 10. Kiểm định phi tham số 11. Tương quan và hồi quy

pdf84 trang | Chia sẻ: tlsuongmuoi | Lượt xem: 2159 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Nguyên lý thống kê kinh tế, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
với mức ý nghĩa 5%. Ví dụ: 8Gọi 2X , 2Y là phương sai về chi phí điện thoại của nữ, nam. Ta có: nX = 10 nY = 20 SX = 164.000đ SY=146.000đ =5% 1. Đặt giả thuyết: 2. Giá trị kiểm định: 3. Quyết định: F = 1,26 < F9,19;2,5%= 2,88 => Chấp nhận giả thuyết H0 4. KL: Với =5%, không đủ bằng chứng để chứng minh rằng có sự khác biệt trong biến động hóa đơn điện thoại trung bình hàng tháng của khách hàng nữ và nam. Ví dụ:       22 1 22 0 : : yx yx H H   26,1 000.146 000.164 2 2 F n cặp quan sát (xi,yi) từ 2 tổng thể X, Y pp chuẩn D0 là giá trị cho trước 6. KĐ sự khác nhau của hai trung bình tổng thể 6.1. KĐ dựa trên phối hợp từng cặp: 1 đuôi phải 1 đuôi trái 2 đuôi Đặt giả thuyết Giá trị kiểm định Quyết định bác bỏ H0 | t | > tn-1,  | t | > tn-1, /2       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx n/S Dd t d 0 n )yx( n d d n 1i ii n 1i i     1n d.nd 1n )dd( S n 1i 22 i n 1i 2 i 2 d         - Một công ty nước giải khát muốn xem xét ảnh hưởng của chiến dịch khuyến mãi đến việc tăng doanh số. - 15 cửa hàng trong hệ thống phân phối sản phẩm của công ty được chọn ngẫu nhiên với số liệu về doanh số bán trong tuần lễ trước và sau chiến dịch khuyến mãi được ghi nhận ở bảng sau. CHàng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Trước KM 57 61 12 38 12 69 5 39 88 9 92 26 14 70 22 Sau KM 60 54 20 35 21 70 1 65 79 10 90 32 19 77 29 Ví dụ: Ở mức ý nghĩa 0,05, có thể kết luận chiến dịch khuyến mãi làm tăng doanh số hay không? Cho biết doanh số bán có phân phối chuẩn. (thực hiện trên máy tính) Gọi X, Y là doanh số bán TB trước và sau khi khuyến mãi. Cửa hàng Doanh số trong tuần (triệu đồng) di di2 Trước khuyến mãi (X) Sau khuyến mãi (Y) 1 57 60 -3 9 2 61 54 7 49 3 12 20 -8 64 4 38 35 3 9 5 12 21 -9 81 6 69 70 -1 1 7 5 1 4 16 8 39 65 -26 676 9 88 79 9 81 10 9 10 -1 1 11 92 90 2 4 12 26 32 -6 36 13 14 19 -5 25 14 70 77 -7 49 15 22 29 -7 49 Cộng -48 1.150 9Ta có: n = 15; = -3,2; D0 = 0, Sd = 8,43 ;  = 5% 1. Đặt giả thuyết: 2. Giá trị kiểm định: 3. Quyết định: t = 1,47 < t14;0,05 = 1,761 => Chấp nhận giả thuyết H0 4. KL: Ở mức ý nghĩa =5%, không thể cho rằng sau chiến dịch khuyến mãi doanh số của công ty tăng lên so với trước. Ví dụ: d      0:H 0:H yx1 yx0 1,47 15/43,8 02,3 n S Ddt d 0      6.2. Kiểm định dựa trên mẫu độc lập: 6.2.1. Nếu biết phương sai tổng thể: 2 tổng thể có pp chuẩn hoặc mẫu có cỡ mẫu lớn (nx, ny  30) 1 đuôi phải 1 đuôi trái 2 đuôi Đặt giả thuyết Giá trị kiểm định Bác bỏ H0 y 2 y x 2 x 0 nn D)yx(Z            01 00 D:H D:H yx yx       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx  ZZ 2/ZZ  6.2. Kiểm định dựa trên mẫu độc lập: 6.2.2. Chưa biết phương sai tổng thể, 2 phương sai khác nhau: a) Nếu nx, ny  30: giống trường hợp (6.2.1), thay σX= Sx và σY=SY b) Nếu nx < 30 hoặc ny < 30: Đk: 2 tổng thể có pp chuẩn 1 đuôi phải 1 đuôi trái 2 đuôi Đặt giả thuyết Giá trị kiểm định Bác bỏ H0 | t | > tn,  | t | > tn, /2       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx y 2 y x 2 x 0 n S n S D)yx(t    1 )S( 1 )S( )SS( n 22 y 22 x 22 y 2 x      y y x x yx n n n n nn 6.2. Kiểm định dựa trên mẫu độc lập: 6.2.3. Chưa biết phương sai tổng thể: 2x = 2y Đk: 2 tt có pp chuẩn 1 đuôi phải 1 đuôi trái 2 đuôi Đặt giả thuyết Giá trị kiểm định Bác bỏ H0       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx       01 00 D:H D:H yx yx ) nn (S D)yx( t yx 112 0    )nn( S)n(S)n( S yx yyxx 2 11 222     ,ynxntt 2 2/,2 t  yx nnt 10 - Một nghiên cứu về hai nhãn hiệu pin X và Y (cùng chủng loại) của hai nhà sản xuất khác nhau được thực hiện. - Chọn ngẫu nhiên mỗi nhãn hiệu 100 pin, kết quả được ghi nhận như sau: + Pin X có thời gian sử dụng trung bình là 308 phút, độ lệch chuẩn 84 phút. + Các chỉ số tương ứng của pin Y lần lượt là 254 phút và 67 phút. - Có thể kết luận thời gian sử dụng trung bình của pin X lớn hơn pin Y ít nhất là 45 phút được không với mức ý nghĩa =0,1. Ví dụ: - Trong bài toán này chưa đề cập đến việc phương sai của hai tổng thể này giống nhau hay khác nhau. - Cụ thể trong trường hợp này nếu chưa biết, chúng ta có thể thực hiện kiểm định về phương sai trước: 1. Đặt giả thuyết: 2. Giá trị kiểm định: 3. Quyết định: F = 1,57 > F99,99,5% = 1,394 => Bác bỏ giả thuyết H0. 4. KL: với =10%, phương sai hai tổng thể là khác nhau. (HD sửa lại bài trong sách) Ví dụ:       22 1 22 0 : : yx yx H H   57,1 67 84F 2 2  * Kiểm định trung bình: nx = ny = 100, = 308, = 254, D0 = 45 Sx = 84, Sy = 67,  = 10% 1. Đặt giả thuyết: 2. Giá trị kiểm định: 3. Quyết định: Z = 0,838 < Z0,1 = 1,28 => chấp nhận giả thuyết H0. 4. KL: Ở mức ý nghĩa 10%, không đủ chứng cớ để kết luận thời gian sử dụng trung bình của pin X lớn hơn pin Y là 45 phút. Ví dụ: x y      45:H 45:H yx1 yx0 838,0 100 67 100 84 45254308)( 2222 0        y y x x n S n S Dyxz Thực hiện kiểm định trên Excel Bước 1: Tools  Data Analysis  chọn loại kiểm định • F-Test: Two Sample for Variances • t-Test: Paired Two Sample for Means • t-Test: Two Sample assuming equal variances • t-Test: Two Sample assuming unequal variances • Z-Test: Two Sample for Means Bước 2: Nhập dữ liệu: - Nhập số liệu theo cột - Variable 1 Range: Chọn vùng xử lý của mẫu 1 - Variable 2 Range: Chọn vùng xử lý của mẫu 2 - Hypothesized Mean Difference: Giá trị D0 - Labels: Vùng xử lý có tên biến không. 11 7. KĐ sự khác biệt của hai tỷ lệ tổng thể (n 40 ) 7.1. Chênh lệch giữa 2 tỷ lệ tổng thể bằng 0 (p0=0): Với 1 đuôi phải 1 đuôi trái 2 đuôi Đặt GT GTKĐ QĐBB H0 | Z | > Z | Z |> Z/2       0 0 1 0 yx yx PP:H PP:H       0 0 1 0 yx yx PP:H PP:H       0 0 1 0 yx yx PP:H PP:H ) nn )(P(P PPZ yx yx 111      yx yyxx nn PnPn P      y y y n m P   x x x n mP   1 đuôi phải 1 đuôi trái 2 đuôi Đặt GT GTKĐ QĐBB H0 | Z |> Z | Z |> Z/2 7. KĐ sự khác biệt của hai tỷ lệ tổng thể (n 40 ) 7.2. Chênh lệch giữa 2 tỷ lệ tổng thể khác 0 (p0 ≠0):       0yx1 0yx0 PPP:H PPP:H       0yx1 0yx0 PPP:H PPP:H       0yx1 0yx0 PPP:H PPP:H y yy x xx 0yx n )P1(P n )P1(P PPP Z        -Một công ty nước giải khát đang nghiên cứu việc đưa vào một công thức mới để cải tiến sản phẩm của mình. -Với công thức cũ, khi cho 500 người dùng thử thì có 120 người tỏ ra ưa thích nó. -Với công thức mới, khi cho 1000 người khác dùng thử thì có 300 người tỏ ra ưa thích nó. -Hãy kiểm định xem công thức mới đưa vào có làm tăng tỷ lệ những người ưa thích nước giải khát hay không với =5%? Ví dụ: Gọi px , py là tỷ lệ người ưa thích sản phẩm cũ, mới. nx = 500 ny = 1000  = 5% =120/500=0,24 =300/1000=0,3 p0 =0 1. Đặt giả thuyết: 2. Giá trị kiểm định: 3. Quyết định: z = 2,44 >1,645 = Z0,05 => bác bỏ giả thuyết H0. 4. KL: Với =5%, ta có thể kết luận khách hàng có xu hướng ưa chuộng sản phẩm với công thức mới hơn. Ví dụ: xp ^ yp ^      0pp:H 0pp:H yx1 yx0 28,0 1000500 300120^    p 44,2 ) 000.1 1 500 1)(28,01(28,0 3,024,0 )11)(1( )( ^^ ^^        yx yx nn pp pp z 12 1PHÂN TÍCH PHƯƠNG SAI (ANOVA) CHƯƠNG 9 Kiểm định về sự bằng nhau của nhiều trung bình tổng thể có phân phối chuẩn, phương sai bằng nhau 1 ANOVA PHƯƠNG SAI MỘT CHIỀU1 PHƯƠNG SAI HAI CHIỀU2 1. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU xem xét ảnh hưởng của một yếu tố nào đó đến một yếu tố khác. Yếu tố được xem xét ảnh hưởng sẽ được dùng để phân loại các quan sát thành các nhóm khác nhau. Mẫu (nhóm) phân theo nhân tố cần nghiên cứu 1 2 ... k x1,1 x2,1 ... xk,1 ... ... ... ... x1,n1 x2,n2 ... xk,nk … 1x 2x kx * Đặt giả thuyết: H0: Trung bình của k tổng thể bằng nhau H1: Trung bình của k tổng thể khác nhau Bước 1: Tính số trung bình - Trung bình từng cột: - Trung bình chung: i ni j ij i n x x   1 n xn x k i ii  1    k 1i inn CÁC BƯỚC PHÂN TÍCH ANOVA MỘT CHIỀU THEO LÝ THUYẾT 2Bước 2: Tính tổng độ lệch bình phương. - Tổng độ lệch bình phương giữa các nhóm: - Tổng độ lệch bình phương: + Từng nhóm: + k nhóm: - Tổng độ lệch bình phương chung: SST = SSG + SSW 2 k 1i ii )xx(nSSG       ni j iiji xxSS 1 2)(     k i ni j iij k i i xxSSSSW 1 1 2 1 )(     k 1i ni 1j 2 ij )xx(SST Bước 3: Tính phương sai: - Phương sai được sinh ra bởi yếu tố cột: - Phương sai được sinh ra bởi yếu tố ngẫu nhiên khác: Bước 4: Giá trị kiểm định: Bước 5: QĐ bác bỏ H0 khi F>Fk-1,n-k, 1k SSGMSG   kn SSWMSW   MSW MSGF  Biến thiên Tổng độ lệch bình phương Bậc tự do Phương sai GTKĐ F P value F crit Giữa các nhóm SSG k-1 Nội bộ nhóm SSW n-k Tổng cộng SST n-1 Bảng kết quả phân tích ANOVA một chiều (thực hiện trên máy tính) 1k SSGMSG   kn SSWMSW   MSW MSGF  VD1: Một nghiên cứu được thực hiện nhằm xem xét năng suất lúa trung bình của 3 giống lúa có bằng nhau hay không. Kết quả thu thập qua 4 năm như sau: Năm A B C 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76 Hãy cho nhận xét với mức ý nghĩa =5%. (thực hiện trên máy tính) 3ANOVA Source of Variation SS df MS F P-value F crit Between Groups 26.167 2 13.083 0.354 0.711 4.256 Within Groups 332.5 9 36.944 Total 358.667 11 VD1: 1. Giả thuyết: Giả thuyết ta có thể trình bày một trong 3 cách sau: H0: Năng suất trung bình của các giống lúa bằng nhau H0: A=B=C H0: Năng suất không phụ thuộc vào giống lúa 2. Quyết định: + p = 71,1%, quá lớn => Chấp nhận H0 hoàn toàn. HOẶC + F = 0,354 Chấp nhận H0 3. Kết luận: Với α = 5%, năng suất trung bình của 3 giống lúa là như nhau. VD1: 2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU  Xem xét ảnh hưởng của 2 yếu tố đến một yếu tố định lượng nào đó mà ta quan tâm * Trường hợp có 1 quan sát trong 1 ô Yếu tố thứ hai (hàng) Yếu tố thứ nhất (cột) 1 2 ... k 1 x1,1 x2,1 ... xk,1 2 x1,2 x2,2 ... xk,2 ... ... ... ... ... h x1,h x2,h ... xk,h Giả thuyết H0: - Trung bình tt theo chỉ tiêu cột bằng nhau - Trung bình tt theo chỉ tiêu hàng bằng nhau Bước 1: Tính số trung bình - Trung bình từng cột: (i=1,...,k) - Trung bình từng hàng: (j=1,...,h) - Trung bình chung: (n = k.h) 2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU h x x h 1j ij i   k x x k 1j ij j   h x k x n x x h 1j j k 1i i k 1i h 1j ij     4Bước 2: Tính tổng độ lệch bình phương. - Sinh ra bởi yếu tố cột: - Sinh ra bởi yếu tố hàng: - Tổng độ lệch bình phương sai số: - Tổng độ lệch bình phương chung: SST = SSG + SSB + SSE 2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU    k 1i 2 i )xx(hSSG    h j j xxkSSB 1 2)(     k i h j jiij xxxxSSE 1 1 2)(     k 1i h 1j 2 ij )xx(SST Bước 3: Tính phương sai. - Sinh ra bởi yếu tố cột: - Sinh ra bởi yếu tố hàng: - Sinh ra bởi yếu tố ngẫu nhiên: Bước 4: - Kiểm định theo cột: - Kiểm định theo hàng: Bước 5: QĐ bác bỏ H0: - Theo chỉ tiêu cột: F1>Fk-1,(k-1)(h-1), - Theo chỉ tiêu hàng: F2>Fh-1,(k-1)(h-1), 2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU 1k SSGMSG   1  h SSBMSB )1h)(1k( SSEMSE   MSE MSGF1  MSE MSBF2  Biến thiên (Source of variation) Tổng độ lệch bình phương (Sum of squares)-SS Bậc tự do (Degree of Freedom) Phương sai (Mean Square)-MS GTKĐ (F Ratio) Giữa các cột SSG k-1 Giữa các hàng SSB h-1 Sai số SSE (k-1)(h-1) Tổng cộng SST n-1 1k SSGMSG   1h SSBMSB   )1h)(1k( SSEMSE   MSE MSGF1  MSE MSBF2  Bảng kết quả phân tích ANOVA hai chiều (thực hiện trên máy tính) VD1: Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa và năng suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau: Loại phân bón Giống lúa A B C 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76 Hãy cho nhận xét với mức ý nghĩa =5%. (thực hiện trên máy tính) 5Kết quả phân tích ANOVA từ Excel =5% như sau: Anova: Two-Factor Without Replication Source of Variation SS df MS F P-value F crit Rows 170,000 3 56,667 2,092 0,203 4,757 Columns 26,167 2 13,083 0,483 0,639 5,143 Error 162,500 6 27,083 Total 358,667 11 VD1 * Kiểm định theo cột: 1. GT: Năng suất không phụ thuộc vào giống 2.QĐ: p=63,9%, quá lớn => Chấp nhận H0 hoàn toàn. 3. KL: Với α=5%, năng suất không phụ thuộc vào giống lúa. * Kiểm định theo hàng: 1. GT: Năng suất không phụ thuộc vào phân bón. 2.QĐ: p=20,3%, quá lớn =>Chấp nhận H0 hoàn toàn. 3. KL: Với α=5%, năng suất không phụ thuộc vào phân bón. VD1 2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU * Trường hợp có hơn 1 quan sát trong 1 ô Kiểm định trung bình tổng thể theo cột Kiểm định trung bình tổng thể theo hàng xem xét có sự tương tác giữa yếu tố hàng và yếu tố cột hay không? Yếu tố thứ hai (hàng) Yếu tố thứ nhất (cột) 1 2 ... k 1 x111 x112­ ... x11l x211 x212­ ... x21l ... xk11 xk12­ ... xk1l ... ... ... ... ... h x1h1 x1h2­ ... x1hl x2h1 x2h2­ ... x2hl ... xkh1 xkh2­ ... xkhl Giả thuyết H0:- Trung bình tt theo chỉ tiêu cột bằng nhau - Trung bình tt theo chỉ tiêu hàng bằng nhau. - Không có sự tương tác giữa yếu tố cột và hàng. Bước 1: Tính số trung bình - Trung bình từng cột: (i=1,...,k) - Trung bình từng hàng: (j=1,...,h) - Trung bình từng ô: - Trung bình chung: l.h x x h 1j l 1s ijs i    lk x x k i l s ijs j . 1 1    l x x l 1s ijs ij   l.h.k x x k 1i h 1j l 1s ijs    6Bước 2: Tính tổng độ lệch bình phương. - Sinh ra bởi yếu tố cột: - Sinh ra bởi yếu tố hàng: - Sinh ra bởi sai số: - Tổng độ lệch bình phương chung: SST = SSG + SSB + SSI + SSE    k 1i 2 i )xx(l.hSSG    h 1j 2 j )xx(l.kSSB     k 1i h 1j 2 jiij )xxxx(lSSI      k 1i h 1j 2 l 1s ijs )xx(SSE      k 1i h 1j l 1s 2 ijs )xx(SST - Sinh ra bởi sự tương tác giữa hàng và cột: Bước 3: Tính phương sai. 1  k SSGMSG 1h SSBMSB   )1h)(1k( SSIMSI   )1l.(h.k SSEMSE   - Phương sai sinh ra bởi yếu tố cột: - Phương sai sinh ra bởi yếu tố hàng: - Phương sai sinh ra bởi sự tương tác: - Phương sai sinh ra bởi yếu tố ngẫu nhiên: Bước 4: Giá trị kiểm định - Kiểm định theo hàng: - Kiểm định theo cột: - Kiểm định sự tương tác hàng và cột: Bước 5: Quyết định bác bỏ giả thuyết H0: - Theo chỉ tiêu cột: F1 > F k-1,kh(l-1), - Theo chỉ tiêu hàng: F2 > F h-1,kh(l-1), - Không có sự tương tác: F3 > F (k-1)(h-1),kh(l-1), MSE MSGF 1 MSE MSBF2  MSE MSIF3  Biến thiên Tổng độ lệch bình phương Bậc tự do Phương sai GTKĐ F Giữa các cột SSG k-1 Giữa các hàng SSB h-1 Tương tác giữa hàng và cột SSI (k-1)(h-1) Sai số SSE kh(l-1) Tổng cộng SST n-1 1k SSGMSG   1h SSBMSB   MSE MSGF1  MSE MSBF2  Bảng kết quả phân tích ANOVA hai chiều (nhiều quan sát) (thực hiện trên máy tính) )1h)(1k( SSIMSI   MSE MSIF3  )1l.(h.k SSEMSE   7VD1: Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa và năng suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau: Loại phân bón Giống lúa A B C 1 65 68 62 69 71 67 75 75 78 2 74 79 76 72 69 69 70 69 65 3 64 72 65 68 73 75 78 82 80 4 83 82 84 78 78 75 76 77 75 Hãy cho nhận xét với mức ý nghĩa =5%. (thực hiện trên máy tính) Kết quả phân tích ANOVA từ Excel =5% như sau: Anova: Two-Factor With Replication Source of Variation SS df MS F P-value F crit Sample 389,000 3 129,667 21,218 0,000 3,009 Columns 57,556 2 28,778 4,709 0,019 3,403 Interaction 586,000 6 97,667 15,982 0,000 2,508 Within 146,667 24 6,111 Total 1179,222 35 VD1 * Kiểm định theo cột: 1. GT: Năng suất không phụ thuộc vào giống 2. QĐ: =5% > 1,9% = p => Bác bỏ H0. 3. KL: Với =5%, năng suất phụ thuộc vào giống. * Kiểm định theo hàng: 1. GT: Năng suất không phụ thuộc vào phân bón. 2. QĐ: p=0%, quá nhỏ => Bác bỏ H0 hoàn toàn. 3. KL: Với =5%, năng suất phụ thuộc vào phân bón. * Kiểm định về sự tương tác: 1. GT: Không có sự tương tác giữa yếu tố giống và phân bón đến năng suất. 2. QĐ: p=0%, quá nhỏ => Bác bỏ H0 hoàn toàn. 3. KL: Với =5%, có sự tương tác giữa yếu tố giống và phân bón đến năng suất. VD1 1CHƯƠNG 10 KIỂM ĐỊNH PHI THAM SỐ KĐ PHI THAM SỐ MỤC ĐÍCH KĐ Wilcoxon (Kiểm định T) KĐ sự bằng nhau của 2 TB tổng thể (Mẫu từng cặp) KĐ Mann – Whitney (Kiểm định U) KĐ sự bằng nhau của 2 TB tổng thể (Mẫu độc lập) KĐ Kruskal- Wallis KĐ sự bằng nhau của nhiều TB tổng thể KĐ sự phù hợp KĐ sự phù hợp về phân phối của tổng thể KĐ sự độc lập (mối liên hệ) KĐ mối liên hệ giữa 2 biến định tính - Hạng (rank) của phần tử: Dãy số xếp theo thứ tự tăng dần: x1 < x2 < x3 < ... < xn rank(x1) = 1, rank(x2) = 2, ..., rank(xn) = n Lưu ý: các phần tử có giá trị bằng nhau thì hạng của nó là hạng trung bình của các hạng liên tiếp. 1. Kiểm định Wilcoxon (Kiểm định T): KĐ sự bằng nhau của hai trung bình tổng thể, mẫu phối hợp từng cặp a) Mẫu nhỏ (n 20): (1) Giả thuyết: (2) GTKĐ: - Tính các chênh lệch: di = xi - yi - Xếp hạng cácdi theo thứ tự tăng dần, các di bằng nhau sẽ nhận hạng trung bình, bỏ qua các di = 0 - Tìm tổng các hạng được xếp của di mang dấu dương (T+) - Tìm tổng các hạng được xếp của di mang dấu (T-) - Giá trị kiểm định T = min(T+, T-) (3) QĐ bác bỏ H0: tra bảng phân phối Willcoxon n+ là số các di  0      0: 0: 1 0 yx yx H H   , nTT ,nT 1. Kiểm định Willcoxon (Kiểm định T): KĐ sự bằng nhau của hai trung bình tổng thể, mẫu phối hợp từng cặp 2Ví dụ: Mẫu 9 khách hàng được chọn ngẫu nhiên và yêu cầu họ cho biết sở thích về 2 loại kem đánh răng A, B thông qua thang điểm từ 1 (thấp nhất) đến 5 (cao nhất). Khách hàng 1 2 3 4 5 6 7 8 9 KĐR A 4 5 2 3 3 1 3 2 2 KĐR B 3 5 5 2 5 5 3 5 5 Hãy kiểm định giả thuyết cho rằng không có xu hướng nghiêng về loại nào trong sở thích đối với 2 loại kem đánh răng A, B với =5%. Gọi µx và µy là điểm trung bình sở thích của KH về KĐR A và B. 1. Đặt giả thuyết: 2. Giá trị kiểm định:      0:H 0:H yx1 yx0 KH 1 2 3 4 5 6 7 8 9 T Kem A 4 5 2 3 3 1 3 2 2 Kem B 3 5 5 2 5 5 3 5 5 Chênh lệch 1 0 -3 1 -2 -4 0 -3 -3 Hạng + 1,5 1,5 3 Hạng - 5 3 7 5 5 25 3. Quyết định: T = min(T+, T-) = min(3, 25) = 3 ; n+ =7 T = 3 Bác bỏ giả thuyết H0. 4. Kết luận: Với =5%, có thể cho rằng có sự khác biệt trong việc ưa chuộng hai loại kem đánh răng A và B. b) Mẫu lớn (n>20): 1. Giả thuyết: có thể đặt ở dạng 1 đuôi hoặc 2 đuôi 2. GTKĐ: + Trung bình: + Phương sai: 3. QĐ bác bỏ Ho: - 1 đuôi: > - 2 đuôi: >Z T TTZ    4 )1(    nn T 24 )12)(1(2   nnn T 2/Z Z Z 1. Kiểm định Willcoxon (Kiểm định T): KĐ sự bằng nhau của hai trung bình tổng thể, mẫu phối hợp từng cặp a/Mẫu nhỏ (n1, n2 < 10): 1. Giả thuyết: 2. GTKĐ: - Xếp hạng tất cả các giá trị của 2 mẫu theo thứ tự tăng dần. - R1: tổng các hạng của tất cả các giá trị ở mẫu thứ nhất. - GTKĐ: - Tra bảng phân phối để tìm F(U) = Fn1,n2(U) 3. QĐ bác bỏ H0 khi: α > 2F(U) 2. Kiểm định Mann - Whitney (Kiểm định U) KĐ sự bằng nhau của hai trung bình tổng thể, mẫu độc lập      0:H 0:H 211 210 1 11 21 2 )1(. RnnnnU  3b/ Mẫu lớn (n1, n2 ≥ 10): 1. Giả thuyết: có thể đặt ở dạng 1 đuôi hoặc 2 đuôi. 2. GTKĐ: 3. QĐ bác bỏ H0: - 1 đuôi: > - 2 đuôi: > 2. Kiểm định Mann - Whitney (Kiểm định U) KĐ sự bằng nhau của hai trung bình tổng thể, mẫu độc lập U UUZ    2 nn 21 U  12 )1nn(n.n 21212 U   Z Z 2/Z Z Ví dụ: Tại một trang trại nuôi lợn người ta thử áp dụng một loại thuốc tăng trọng bổ sung vào khẩu phần thức ăn của 10 con lợn, sau 3 tháng người ta thu thập số liệu về trọng lượng của lợn (X). Đồng thời người ta cũng thu thập số liệu về 15 con lợn khác không dùng thuốc tăng trọng (Y). Hãy kiểm tra xem trọng lượng có như nhau hay không khi thử nghiệm với =5%. Tổng X 60 61 62 62 63 63 68 64 64 65 Y 56 56 57 57 58 58 58 59 59 60 60 60 61 61 62 rank(x) 11,5 15 18 18 20,5 20,5 25 22,5 22,5 24 197,5 rank(y) 1,5 1,5 3,5 3,5 6 6 6 8,5 8,5 11,5 11,5 11,5 15 15 18 127,5 Gọi µ1 và µ2 là trọng lượng của lợn có SD và không SD thức ăn tăng trọng. 1. Giả thuyết: 2. GTKĐ: 3. QĐ: Z= 3,744 > Z2,5% = 1,96 => Bác bỏ H0. 4. Kết luận: Với =5%, trọng lượng của lợn có thay đổi khi sử dụng thuốc tăng trọng.      0:H 0:H 211 210 5,75,197 2 )110(101510  xU 75 2 15x10 U  325 12 )11510(15x102 U    744,3 325 755,7Z  Xếp hạng tất cả các gtrị theo thứ tự tăng dần R1, R2,..., Rk là tổng hạng của từng mẫu. (1) Giả thuyết: (2) GTKĐ: (3) QĐ bác bỏ H0 khi: 3. Kiểm định Kruskal – Wallis: KĐ sự bằng nhau của k trung bình tổng thể      )ji(:H ...:H ji1 k210 )1(3 )1( 12 1 2 2      n n R nn k i i i 2 ,1 2   k 4Ví dụ: Một nhà nghiên cứu muốn xem xét tổng giá trị sản phẩm sản xuất của 3 ngành A, B, C có giống nhau không. Người ta chọn một số xí nghiệp hoạt động trong các ngành này và có bảng số liệu như bên dưới. Có thể kết luận gì ở 0,5%? 1. Giả thuyết: H0: A=B=C 2. Giá trị kiểm định: Ngành A 1,38 1,55 1,90 2,00 1,22 2,11 1,98 1,61 Tổng Ngành B 2,33 2,50 2,79 3,01 1,99 2,45 Ngành C 1,06 1,37 1,09 1,65 1,44 1,11 rank(A) 6 8 11 14 4 15 12 9 79 rank(B) 16 18 19 20 13 17 103 rank(C) 1 5 2 10 7 3 28 3. Quyết định: 2 = 13,54 > 22;0,5% = 10,597 => Bác bỏ H0. 4. Kết luận, với =0,5%, tổng giá trị sản phẩm trung bình của các ngành là khác nhau. 54,13)120(3) 6 28 6 103 8 79( 1)20(20 12 2222    - Mẫu n quan sát được chia thành k nhóm khác nhau - Oi: Số quan sát của nhóm thứ i (i= 1, 2, …, k) - pi: xác suất giả thuyết để 1 quan sát rơi vào nhóm thứ i 1. GT: H0: Tổng thể có phân phối xác suất pi H1: Tổng thể không có phân phối xác suất pi 2. GTKĐ: 3. QĐ bác bỏ H0 khi: 4. Kiểm định sự phù hợp KĐ xem tổng thể có tuân theo một phân phối giả định cho trước nào đó hay không a) Giả định đã biết các tham số của tổng thể:     k 1i i 2 ii2 E )EO( 2 ,1k 2  Đk: kiểm định có ý nghĩa khi Ei  5 với Ei = n.pi Ví dụ: Ở một bar có 4 nhãn hiệu bia khác nhau. 160 khách hàng được chọn ngẫu nhiên cho thấy sự lựa chọn về các nhãn hiệu như sau: Nhãn hiệu A B C D Số khách hàng 34 46 29 51 Có thể kết luận sự ưa chuộng của khách hàng về 4 loại bia là như nhau được không ở mức ý nghĩa 2,5%? Nhãn hiệu (x) A B C D Số khách hàng (Oi) 34 46 29 51 160 Giả thuyết Ho (pi) 0,25 0,25 0,25 0,25 1 Ei=n.pi 40 40 40 40 (0i-Ei)2/Ei 0,90 0,90 3,03 3,03 7,86 51. Giả thuyết: H0: pA= pB= pC= pD=0,25 H1: pA≠ pB≠ pC≠ pD 2. GTKĐ: 3. Quyết định: => Chấp nhận giả thuyết H0. 4. Kết luận: Ở mức ý nghĩa 2,5% sự ưa chuộng của khách hàng về 4 nhãn hiệu bia là như nhau. Ei = 40 > 5 => KĐ có ý nghĩa 86,72  348,986,7 2 025,0;3 2 ,1 2    k • Phần này ta nghiên cứu việc kiểm định giả thuyết các quan sát tuân theo một qui luật phân phối nào đó. • Trước hết phải xác định xác suất pi để một quan sát rơi vào nhóm thứ i. • Sau đó áp dụng phương pháp tương tự như phần (a). 4. Kiểm định sự phù hợp: b) Giả định chưa biết các tham số của tổng thể: - Mẫu n qs được phân nhóm kết hợp thành 2 tiêu thức với nhau  bảng phân nhóm kết hợp gồm r hàng và c cột. - nij qs tương ứng với hàng i và cột j Phân nhóm theo tiêu thức thứ hai Phân nhóm theo tiêu thức thứ nhất 1 2 ... c  1 n11 n12 ... n1c R1 2 n21 n22 ... n2c R2 ... ... ... ... ... ... r nr1 nr2 ... nrc Rr  C C ... C n 5. Kiểm định về sự độc lập (kiểm định về mối liên hệ): KĐ xem giữa hai tiêu thức (định tính) của tổng thể có mối liên hệ hay không 1. GT: H0: không có mối liên hệ giữa hai tiêu thức H1: Tồn tại mối liên hệ giữa hai tiêu thức 2. GTKĐ: 3. QĐ bác bỏ H0 khi: 5. Kiểm định về sự độc lập, kiểm định về mối liên hệ: KĐ xem giữa hai tiêu thức của tổng thể có mối liên hệ hay không      r i c j ij ijij E En 1 1 2 2 )( n RCE ijij  2 ),1c)(1r( 2  6Ví dụ: Một nghiên cứu được thực hiện nhằm xem xét mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu nước giải khát, một mẫu ngẫu nhiên 2.425 người tiêu dùng với các nhãn hiệu nước giải khát được ưa thích như sau: Giới tính Nhãn hiệu ưa thích Coca Pepsi 7Up Nam 308 177 114 Nữ 502 627 697 Kiểm định giả thuyết không có mối liên hệ nào giữa giới tính và sự ưa thích nhãn hiệu nước giải khát ở mức ý nghĩa 0,5%. Giới tính Nhãn hiệu ưa thích Coca Pepsi 7Up Ri 2 Nam 308 177 114 599 - E1,j 200,08 198,60 200,33 - - (n1,j-E1,j)2/E1,j 58,21 2,35 37,20 - 97,76 Nữ 502 627 697 1826 - E2,j 609,92 605,40 610,67 - - (n2,j-E2,j)2/E2,j 19,10 0,77 12,20 - 32,07 Cj 810 804 811 2425 129,83 1. GT: H0: Không có mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu nước giải khát. H1: Có mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu nước giải khát. 2. Giá trị kiểm định: 3. Quyết định: => bác bỏ giả thuyết H0. 4. Kết luận: Ở mức ý nghĩa 0,5%, giả thuyết H0 bị bác bỏ, có nghĩa là có mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu nước giải khát.       r 1i c 1j ë 2 ëij2 83,12907,3276,97 E )EO( 2. Giá trị kiểm định: 597,1083,129 2 005,0;2 2 005,0);13)(12( 2    1CHƯƠNG 11 TƯƠNG QUAN VÀ HỒI QUY A. TƯƠNG QUAN A. PHÂN TÍCH TƯƠNG QUAN Mục tiêu: đo lường cường độ của mối quan hệ giữa hai biến ngẫu nhiên X và Y không phân biệt độc lập hay phụ thuộc. Ví dụ: - Số năm đi học ↔ thu nhập - Chi phí quảng cáo ↔ doanh thu - Điểm thi tuyển sinh môn Toán ↔ Điểm thi môn XSTK 1. Hệ số tương quan: 1.1. Hệ số tương quan tổng thể (-pro) Giá trị: -1    1 •  < 0 : giữa X và Y có mối tương quan nghịch. •  > 0 : giữa X và Y có mối tương quan thuận. •  = 0 : giữa X và Y không có mối liên hệ tuyến tính.  càng lớn, X và Y càng quan hệ chặt chẽ. * Hệ số tương quan tổng thể sẽ được ước lượng từ hệ số tương quan mẫu. A. PHÂN TÍCH TƯƠNG QUAN 21. Hệ số tương quan: 1.2. Hệ số tương quan mẫu (r-hệ số tương quan Pearson) - Gọi (xi,yi) là mẫu n cặp giá trị quan sát thu thập ngẫu nhiên từ 2 tổng thể X và Y. - Hệ số đo lường mối quan hệ tuyến tính giữa 2 biến x và y trong mẫu gồm n phần tử sẽ được gọi là hệ số tương quan mẫu – Ký hiệu: r A. PHÂN TÍCH TƯƠNG QUAN          n i n i ii n i ii yyxx yyxx r 1 1 22 1 )()( ))((        n i i n i i n i ii ynyxnx yxnyx r 1 22 1 22 1 )()( ))(()( 1.2. Hệ số tương quan mẫu: •│r│>0,8: tương quan tuyến tính rất mạnh •│r│=0,6-0,8: tương quan tuyến tính mạnh •│r│ =0,4-0,6 : có tương quan tuyến tính •│r│ =0,2-0,4 : tương quan tuyến tính yếu •│r│<0,2: tương quan tuyến tính rất yếu hoặc không có tương quan tuyến tính Ví dụ: Số liệu về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu thụ ở một cty như sau: A. PHÂN TÍCH TƯƠNG QUAN Thời gian quảng cáo trong tuần (phút) 28 37 44 36 47 35 26 29 33 32 31 28 Lượng tiêu thụ trong tuần (1000sp) 41 32 49 42 38 33 27 24 35 30 34 25 A. PHÂN TÍCH TƯƠNG QUAN VD: Tính hệ số tương quan mẫu STT TGQC (xi) LTT (yi) xiyI 1 28 784 41 1681 1148 2 37 1369 32 1024 1184 3 44 1936 49 2401 2156 4 36 1296 42 1764 1512 5 47 2209 38 1444 1786 6 35 1225 33 1089 1155 7 26 676 27 729 702 8 29 841 24 576 696 9 33 1089 35 1225 1155 10 32 1024 30 900 960 11 31 961 34 1156 1054 12 28 784 25 625 700  406 14.194 410 14.614 14.208  / n 33,83 1.183 34,17 1218 1.184 2 ix 2 iy A. PHÂN TÍCH TƯƠNG QUAN VD: Tính hệ số tương quan mẫu )22 1 22 1 22 1 17.34*1214614)(83.33*1214194( 17.34*83.33*1214208 )()( ))(()(           n i i n i i n i ii ynyxnx yxnyx r  r = 0.639 KL: Giữa thời gian quảng cáo trong tuần và lượng tiêu thụ của cty có mối tương quan thuận tương đối mạnh. 32. Kiểm định giả thuyết về mối liên hệ tương quan: 1đuôi phải 1 đuôi trái 2 đuôi 1. Giả thuyết 2. GTKĐ 3. QĐ bác bỏ H0 > tn-2, > tn-2,/2 A. PHÂN TÍCH TƯƠNG QUAN      0:H 0:H 1 0      0:H 0:H 1 0      0: 0: 1 0   H H )2( )1( 2    n r rt tt 2. Kiểm định giả thuyết về mối liên hệ tương quan: Từ ví dụ trước, ta tính được r = 0,639. Dựa vào r, hãy cho biết có thể kết luận rằng có mối tương quan thuận giữa thời gian quảng cáo và lượng sản phẩm tiêu thụ được hay không? A. PHÂN TÍCH TƯƠNG QUAN B1. Đặt giả thuyết: B2. Tính giá trị kiểm định: B3. Quyết định: t > tn-2,  = t10;5% = 1.812 => bác bỏ H0. B4. Kết luận: Với α = 5%, có mối tương quan thuận giữa thời gian quảng cáo và lượng sản phẩm tiêu thụ. 62.2 )212/()639.01( 639.0 )2n/()r1( rt 22      H0 :   0 H1 :  > 0 B. HỒI QUY TUYẾN TÍNH Y Y Y Y X XX X a. Liên hệ phi tuyến b. Không có liên hệ c. Liên hệ tuyến tính thuận d. Liên hệ tuyến tính nghịch ĐK thân cây và chiều cao Đường cầu CÁC DẠNG LIÊN HỆ GIỮA HAI BIẾN X VÀ Y 4B. HỒI QUI TUYẾN TÍNH  Mục tiêu của phân tích hồi qui là xây dựng mối liên hệ phụ thuộc của một biến phụ thuộc (Y) vào một hay nhiều biến độc lập (X) bằng mô hình toán học để từ đó có thể giải quyết các vấn đề sau: • Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập. • Kiểm định giả thuyết về bản chất của sự phụ thuộc. • Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập. Hồi qui đơn biến: khảo sát liên hệ giữa 1 biến phụ thuộc (Y) vào chỉ 1 biến độc lập (X). VD: Thu nhập  trình độ học vấn Biến độc lậpBiến phụ thuộc Hồi qui đa biến: khảo sát liên hệ giữa 1 biến phụ thuộc (Y) vào nhiều biến độc lập (X). VD: Sản lượng lúa  nhiệt độ, lượng mưa, phân bón,… Biến phụ thuộc Các biến độc lập B. HỒI QUI TUYẾN TÍNH 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 0 20 40 60 80 100 120 140 160 180 200 80 100 120 140 160 180 200 220 240 260 E(Y/Xi) - Trung bình có điều kiện của Y sẽ phụ thuộc vào các giá trị của X: E(Y/Xi) = f(Xi) 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.1. Pt hồi qui tuyến tính đơn biến của tổng thể: Y =  + .X + Ɛ + : hệ số tự do hay hệ số chặn, cho biết giá trị trung bình của Y khi X = 0. + : hệ số riêng của biến, đo lường lượng thay đổi trung bình trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. + Ɛ: là sai số, biến ngẫu nhiên có pp chuẩn. 51. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.2. Pt hồi qui tuyến tính đơn biến của mẫu: bxay ˆ               n 1i 22 i n 1i ii n 1i 2 i n 1i ii x.nx y.x.nyx )xx( )yy)(xx( b Với a, b được xác định theo phương pháp bình phương bé nhất như sau: xbya  TÍNH TOÁN CÁC KẾT QUẢ HỒI QUI BẰNG PHẦN MỀM EXCEL Tools/Data analysis/Regression - Input Y Range: nhập địa chỉ của biến Y. - Input X Range: nhập địa chỉ của biến X. - Lables: dữ liệu có chứa tiêu đề không - Các lựa chọn kế tiếp có thể để mặc định hoặc thay đổi tùy theo mục đích. - Output Range: chọn vùng xuất kết quả - New Worksheet ply: đặt tên cho sheet chứa kết quả - Nhấp OK để hoàn tất. VD1: Giám đốc tiếp thị của một cty xem xét mối liên hệ giữa doanh số bán và số năm kinh nghiệm của các đại diện bán hàng, số liệu được thu thập trong bảng sau: STT Doanh số Số năm Y X 1 487 3 2 445 5 3 272 2 4 641 8 5 187 2 6 440 6 7 346 7 8 238 1 9 312 4 10 269 2 11 655 9 12 563 6 VD: TÍNH TOÁN CÁC KẾT QUẢ HỒI QUI BẰNG PHẦN MỀM EXCEL Coefficients Standard Error t Stat P-value Intercept 175,8288 54,99 3,197 0,0095 SO NAM 49,9101 10,50 4,752 0,0007 Hệ số hồi qui a = 175,8288 b = 49,9101 xy 9101,498288,175ˆ  6Giải thích phương trình hồi quy mẫu xy 9101,498288,175ˆ  • a = 175,8288: khi số năm kinh nghiệm bằng 0 tức là 1 đại diện bán hàng vừa mới làm việc với cty thì cũng có thể đạt doanh số trung bình khoảng 175,8288 triệu đồng. • b = 49,9101: khi số năm kinh nghiệm tăng thêm 1 năm thì doanh số sẽ tăng trung bình khoảng 49,9101 triệu đồng.  thể hiện phần trăm biến thiên của Y được giải thích bởi các biến X được nêu trong mô hình hồi qui. SST SSE1 SST SSRR2  Regression Statistics Multiple R 0,833 R Square 0,693 Adjusted R Square 0,662 Standard Error 92,106 Observations 12 ii xy 9101,498288,175ˆ   R2 = 0,693 cho ta biết 69,3% biến thiên doanh số bán hàng có thể giải thích được bởi biến thiên trong số năm kinh nghiệm. 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.3. Hệ số xác định (R2) : Sai số chuẩn của hồi qui Regression Statistics Multiple R 0,833 R Square 0,693 Adjusted R Square 0,662 Standard Error 92,106 Observations 12 xy 9101,498288,175ˆ  • Sai số chuẩn của hồi qui đo lường sự biến thiên của các giá trị Y thực tế xung quanh đường hồi qui. • Sai số chuẩn của hồi qui có cùng ĐVT với biến Y. • Sai số càng lớn thì biến thiên càng nhiều  đường hồi qui càng ít sát với các điểm dữ liệu. 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.4. Kiểm định F : xem xét giả thuyết về sự tồn tại của mối liên hệ tuyến tính giữa X và Y. df SS MS F Significance F Regression 1 191600,6 191600,6 22,6 0,001 Residual 10 84834,3 8483,4 Total 11 276434,9 xy 9101,498288,175ˆ VD: ANOVA - GT: H0:  = 0 (không có mối liên hệ tuyến tính giữa doanh số bán hàng và số năm kinh nghiệm) H1:  0 (có mối liên hệ tuyến tính giữa doanh số bán hàng và số năm kinh nghiệm) - QĐ: p-value = 0,1%quá nhỏ  Bác bỏ H0. - KL: Với α = 5% có mối liên hệ tuyến tính giữa doanh số bán hàng và số năm kinh nghiệm. 7- Giả thuyết: H0:  = 0 (biến X không có ý nghĩa trong mô hình hồi qui) H1:   0 (biến X có ý nghĩa trong mô hình hồi qui) - Giá trị kiểm định: Sb: sai số chuẩn ước lượng của b - Qui tắc quyết định: Ở mức ý nghĩa , bác bỏ H0 khi: bS bt  2/,2  ntt 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.5. Kiểm định giả thuyết về mối liên hệ tuyến tính: (tương tự kiểm định F) 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.5. Kiểm định giả thuyết về mối liên hệ tuyến tính: (tương tự kiểm định F) xy 9101,498288,175ˆ VD: - GT: H0:  = 0 (biến X không có ý nghĩa trong mô hình hồi qui) H1:   0 (biến X có ý nghĩa trong mô hình hồi qui) - QĐ: p-value ≈ 0  quá nhỏ  Bác bỏ H0. - KL: Với α = 5% biến X có ý nghĩa trong mô hình hồi qui. Coefficients Standard Error t Stat P-value Intercept 175,8288 54,99 3,197 0,0095 SO NAM 49,9101 10,50 4,752 0,0007 • Hệ số a và b trong phương trình hồi qui mẫu được sử dụng để ước lượng cho các hệ số α và  trong phương trình hồi qui tổng thể.  Khoảng tin cậy (1-).100% cho α và : 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.6. Ước lượng khoảng tin cậy của các hệ số hồi quy: Ý nghĩa: nếu biến độc lập X tăng 1 đơn vị thì biến phụ thuộc Y sẽ tăng trong khoảng (b  tn-2, /2 x Sb) đơn vị. Với Sa, Sb là những độ lệch chuẩn đã ước lượng. anan StaSta 2/,22/,2     bnbn StbStb 2/,22/,2     Ý nghĩa: nếu X = 0 thì giá trị trung bình của Y sẽ nằm trong khoảng (a  tn-2, /2 x Sa) đơn vị. 1. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 1.7. Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập. 11 .ˆ   nn xbay Trong đó: - a, b là các hệ số trong mô hình hồi qui mẫu. - Biến xn+1 là giá trị được cho trước. 8PHÂN BIỆT LIÊN HỆ THỐNG KÊ VÀ LIÊN HỆ HÀM SỐ KHI PHÂN TÍCH HỒI QUI - Liên hệ hàm số: Pt của hàm bậc nhất: Y = aX + b: với một giá trị X  tìm được một giá trị Y duy nhất. - Liên hệ thống kê: Trong mô hình hồi qui đơn biến: Y = aX + b: nếu biết X  cũng không cho phép dự đoán giá trị của Y chính xác là bao nhiêu, vì còn có các biến khác tác động đến X mà chưa được đưa vào mô hình. 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.1. PT hồi qui bội của tổng thể và mẫu: - Pt hồi qui tổng thể: Y = α + β1X1 + β2X2 +…+ βkXk + Ɛ + : hệ số tự do hay hệ số chặn, cho biết giá trị trung bình của Y khi các biến Xi = 0. + i: hệ số riêng của biến, đo lường lượng thay đổi trung bình trong biến phụ thuộc Y khi Xi thay đổi một đơn vị, các biến còn lại không đổi.. + Ɛ: là sai số, biến ngẫu nhiên có pp chuẩn. - Pt hồi qui mẫu: kk xbxbxbay  ...ˆ 2211 Hệ số tương quan bội (R): đo lường một cách tổng quát cường độ của mối liên hệ tương tự như hệ số tương quan giữa các biến độc lập X và biến phụ thuộc Y. Hệ số xác định (R2) thể hiện phần biến thiên của Y được giải thích bởi các biến X được nêu trong mô hình hồi qui. Hệ số xác định được tính theo công thức: R2 càng lớn  mô hình hồi qui tuyến tính càng thích hợp, và tất nhiên là càng có ý nghĩa trong việc giải thích sự biến thiên của Y. Tuy nhiên, khi số biến X tăng R2 tăng mô hình hồi qui không thích hợp, không thể sử dụng để dự đoán. SST SSE1 SST SSRR2  2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.2. Hệ số xác định: - là R2 nhưng có tính đến bậc tự do của SSE và SST. - có sự khác biệt rất ít so với R2 (chỉ khác biệt khi số lượng biến X chiếm tỷ lệ lớn trong một mẫu nhỏ). - Dùng để xem xét có nên thêm biến độc lập mới vào mô hình hồi qui hay không. - Nếu tăng lên khi thêm biến Xi nào đó thì chúng ta có thể quyết định đưa biến đó vào mô hình hồi qui. 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.3. Hệ số xác định đã điều chỉnh ( ): 2 R 2 R 2 R 2 R 2 R 9Mục đích: xem xét giả thuyết về sự tồn tại của mối liên hệ tuyến tính của X và Y. Giả thuyết: Giá trị kiểm định: Trường hợp biết R2: Qui tắc quyết định: bác bỏ H0 khi F > Fk,n-k-1, H0: 1 = 2 = … =i = 0 (pt hồi qui không có ý nghĩa) H1: có ít nhất một tham số i  0 (pt hồi qui có ý nghĩa) MSE MSRF  k: số biến độc lập trong mô hình hồi qui n: số quan sát (cỡ mẫu) 2 2 1 1 R R k knF     2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.4. Phân tích phương sai hồi qui (kiểm định F): Lưu ý: khi xử lý bằng Excel, thường cho ra kết quả của Sig F, Sig F có ý nghĩa tương tự như P-value tức là giả thuyết H0 sẽ bị bác bỏ ở bất kỳ  > Sig F. ANOVA Nguồn biến động Df Độ tự do SS Tổng bình phương MS TB bình phương F GT kiểm định Significance F Regression (Do hồi qui) K SSR MSR= SSR/k F = MSR/MSE Residual (Dư số) n-k-1 SSE MSE = SSE/(n-k) Total (Tổng cộng) n-1 SST MST = SST/n 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.4. Phân tích phương sai hồi qui (kiểm định F): - Giả thuyết: H0: i = 0 (biến Xi không có ý nghĩa trong mô hình hồi qui) H1: i  0 (biến Xi có ý nghĩa trong mô hình hồi qui) - Giá trị kiểm định: - Qui tắc quyết định: Ở mức ý nghĩa , bác bỏ H0 khi: ib i i S bt  2/,1 kni tt 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.5. Kiểm định từng hệ số hồi qui tổng thể (kiểm định t): • Hệ số a và b trong phương trình hồi qui mẫu được sử dụng để ước lượng cho các hệ số α và  trong phương trình hồi qui tổng thể.  Khoảng tin cậy (1-).100% cho α và : 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.6. Ước lượng khoảng tin cậy của các hệ số hồi quy: Ý nghĩa: nếu biến độc lập Xi tăng 1 đơn vị thì biến phụ thuộc Y sẽ tăng trong khoảng (bi  tn-k-1, /2 x Sbi) đơn vị, với giả định các biến Xi khác không đổi. Với Sa và các Sbi là những độ lệch chuẩn đã ước lượng. aknakn StaSta 2/,12/,1     ibkniiibkni StbStb 2/,12/,1     Ý nghĩa: nếu các biến Xi = 0 thì giá trị trung bình của Y sẽ nằm trong khoảng (a  tn-k-1, /2 x Sa) đơn vị. 10 Bảng xử lý từ Excel sẽ có dạng sau: Coefficients Standard Error t Stat P-value Lower 1- Upper 1- Intercept a Sa X1 b1 Sb1 b1/Sb1 b1 - 1 b1 + 1 X2 b2 Sb2 b2/Sb2 b2 - 2 b2 + 2 Xi bi Sbi bi/Sbi bi - i bi + i Đọc kết quả kiểm định Đọc kết quả ước lượng Trong đó: i = tn-k-1;/2 x Sbi 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) 2.6. Ước lượng khoảng tin cậy của các hệ số hồi quy: 2.6. Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập. 11221111   n.kkn.n.n xb...xbxbayˆ • Trong đó: a, b1, b2, ..., bk là các hằng số trong mô hình hồi qui mẫu. • Các biến: x1.n+1, x2.n+1,..., xk.n+1 là các giá trị được cho trước. 2. MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐA BIẾN (HỒI QUI BỘI) TÍNH TOÁN CÁC KẾT QUẢ HỒI QUI BẰNG PHẦN MỀM EXCEL Tools/Data analysis/Regression - Input Y Range: nhập địa chỉ của biến Y. - Input X Range: nhập địa chỉ của biến X. - Lables: dữ liệu có chứa tiêu đề không - Các lựa chọn kế tiếp có thể để mặc định hoặc thay đổi tùy theo mục đích. - Output Range: chọn vùng xuất kết quả - New Worksheet ply: đặt tên cho sheet chứa kết quả -Nhấp OK để hoàn tất. Ví dụ 2: tốc độ tăng trưởng kinh tế 1/2/2012 1 CHƯƠNG 12. DÃY SỐ THỜI GIAN BÀI GIẢNG NGUYÊN LÝ THỐNG KÊ KINH TẾ NỘI DUNG Giới thiệu dãy số thời gian1 Các đại lượng mô tả DSTG2 3 Mô hình nhân4 Dự báo trên DSTG 5 I. GIỚI THIỆU DÃY SỐ THỜI GIAN 1. Định nghĩa: Dãy số thời gian là một dãy các giá trị của một chỉ tiêu nào đó được sắp xếp theo thứ tự thời gian. 2. Phân loại: - Dãy số thời kỳ: là dãy số biểu hiện sự thay đổi của hiện tượng qua từng thời kỳ nhất định. - Dãy số thời điểm: là dãy số biểu hiện mặt lượng của hiện tượng vào từng thời điểm nhất định. Ví dụ Năm 2001 2002 2003 2004 2005 SL (ngàn tấn) 931,1 722,2 749,4 976,2 892,4 VD1: Sản lượng cà phê XK của Việt Nam từ 2001-2005 VD2: Giá vàng SJC tại Cần Thơ trong tuần đầu tháng 9/2011 Ngày 1/9 2/9 3/9 4/9 5/9 6/9 Ngàn đồng/chỉ 4.340,5 4.356,0 4.505,2 4.578,7 4.650,0 4.645,5 1/2/2012 2 II. CÁC ĐẠI LƯỢNG MÔ TẢ DSTG 1. Mức độ trung bình theo thời gian: n Y Y n i i  11.1. Dãy số thời kỳ: 1 2 1... 2 1 121     n YYYY Y nn Y 1.2. Dãy số thời điểm: - Khoảng cách giữa các thời điểm bằng nhau: - Khoảng cách giữa các thời điểm không bằng nhau:     n i i n i ii t tY Y 1 1 Yi: mức độ thứ i trong dãy số ti : độ dài thời gian tương ứng 2. Lượng tăng (giảm) tuyệt đối: ∆ 2.1. Lượng tăng (giảm) tuyệt đối liên hoàn: 2.2. Lượng tăng (giảm) tuyệt đối định gốc: * Mối liên hệ giữa lượng tăng (giảm) tuyệt đối liên hoàn và định gốc: 2.3. Lượng tăng (giảm) tuyệt đối trung bình: 1 iii YY 1' YYii  ' n n 2i i   111 1 ' 2            n YY nn nn n i i II. CÁC ĐẠI LƯỢNG MÔ TẢ DSTG 3. Tốc độ phát triển (lần, %) 3.1. Tốc độ phát triển liên hoàn: 3.2. Tốc độ phát triển định gốc: Mối liên hệ giữa tốc độ phát triển liên hoàn và định gốc: 3.3. Tốc độ phát triển trung bình: 1  i i i Y Yt 1 ' Y Yt i i  ' n n 2i i tt   1 1 1 '1 2     n nn nn n i i Y Y ttt II. CÁC ĐẠI LƯỢNG MÔ TẢ DSTG III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 1. Một số vấn đề liên quan đến dự báo 1.1. Thời đoạn dự báo: là tần suất thời gian mà số liệu phục vụ cho dự báo được thu thập (tháng, quí, năm…) 1.2. Tầm xa dự báo: là khoảng thời gian tương lai mà giá trị dự báo được thực hiện, tầm xa dự báo có thể gồm 1 hoặc nhiều thời đoạn dự báo. 1.3. Giai đoạn dự báo: - Dự báo hậu nghiệm: trường hợp đã có các giá trị quan sát thực tế, có thể đánh giá được độ phù hợp của mô hình. - Dự báo tiền nghiệm: ngược lại với dự báo hậu nghiệm. - Dự báo lùi: nhằm tạo ra các giá trị bổ sung cho dãy số thời gian trong quá trình phân tích. 1/2/2012 3 III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN Sai số dự báo: et = Yt – Ft Sai số tuyệt đối trung bình: Sai số % tuyệt đối trung bình: Sai số bình phương trung bình: Hệ số không ngang bằng: n e MAE n t t  1 %1001    n Ye MPAE n t tt MSERMSE n e MSE n t t    ;1 2 Naive DB RMSE RMSEU  1.4. Đo lường độ chính xác của mô hình dự báo MH đang xem xét MH thô Naive III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 58,0 12,2 22,1 4 18 46  Naive DB RMSE RMSEU VD: Đo lường độ chính xác của mô hình dự báo t Yt Ft Ft(Naive) et et (Naive) e2t e2t (Naive) 1 16 16 - 0 - 0 2 17 18 16 -1 1 1 1 3 20 18 17 2 3 4 9 4 22 21 20 1 2 1 4 5 - 24 22 - - - Tổng 6 14 III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2. Một số mô hình dự báo 2.1. Dựa vào lượng tăng giảm tuyệt đối trung bình: Ví dụ: Giá trị xuất khẩu mặt hàng X của quốc gia trong các năm, hãy dự báo cho năm 2009, 2010 Năm 2002 2003 2004 2005 2006 2007 2008 Giá trị xuất khẩu (tỷ đồng) 2,0 2,2 1,7 1,5 2,8 2,9 3,4  .Lyyˆ nLn : Giá trị dự đoán ở thời gian n+L : Giá trị thực tế ở thời gian n : Lượng tăng (giảm) tuyệt đối TB L : Tầm xa dự đoán nY  Lny   III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2.2. Dựa vào tốc độ phát triển trung bình: : Giá trị dự đoán ở thời gian n+L yn : Giá trị thực tế ở thời gian n : tốc độ phát triển TB L : Tầm xa dự đoán L nLn )t.(yyˆ  Ln y   t Ví dụ: Sử dụng VD trên, hãy dự đoán giá trị xuất khẩu mặt hàng X của quốc gia ở năm 2009, 2010 dựa vào tốc độ phát triển TB. 1/2/2012 4 III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2.3. Dự báo bằng phương pháp trung bình trượt: Yt : Giá trị thực tế ở thời điểm t Ft+1 : Giá trị dự báo ở thời điểm t+1 k : khoảng trượt (k = 3,4,5,6,7…) k YYY F ktttt 1)(1 1 ...     Áp dụng cho dữ liệu có dao động nhiều nhưng không có tính xu thế rõ ràng III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2.3. Dự báo bằng phương pháp trung bình trượt: VD: SL của 1 nhà máy SX thép thời kỳ 1995-2004: Năm SL (tr.tấn) Số TB trượt 1995 7,4 1996 6,8 1997 6,4 1998 6,6 6,87 1999 7,1 6,60 2000 6,0 6,70 2001 7,3 6,57 2002 6,7 6,80 2003 8,2 6,67 2004 7,8 7,40 2005 7,57 K = 3 Áp dụng cho dữ liệu không có xu hướng rõ rệt và không có kiểu mẫu vận động cơ bản nào ttt FYF ).1(.1   0<<1 : Hệ số làm phẳng chọn α cho MSE nhỏ nhất tLt yy ˆ III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2.4. Phương pháp làm phẳng số mũ đơn giản Bước 1: Làm phẳng dãy số: Bước 2: Giá trị dự báo: Thực hiện trên Excel: Tools/Solver - Set targit cell: nhập địa chỉ ô chứa công thức tính MSE - Equal to: chọn Min (để MSE nhỏ nhất) - By changing cell: nhập địa chỉ ô chứa giá trị α - Subject to the constraints: nhập điều kiện 0<α<1 III. DỰ BÁO TRÊN DÃY SỐ THỜI GIAN 2.5. Mô hình ngoại suy xu thế: bta)t(fyˆt  Dự báo dựa vào hồi qui Yt theo biến độc lập là thời gian t 1/2/2012 5 IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN 1. Các yếu tố ảnh hưởng đến dãy số thời gian: • Tính xu hướng: thể hiện chiều hướng biến động, tăng hoặc giảm, của hiện tượng trong một thời gian dài. • Tính chu kỳ: Biến động của hiện tượng được lặp lại với một chu kỳ nhất định. • Tính thời vụ: là sự biến động của hiện tượng ở một số thời điểm nào đó trong năm được lặp đi lặp lại qua nhiều năm. • Tính ngẫu nhiên hay bất thường: là biến động không có qui luật và hầu như không dự đoán được. IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN 2. Mô hình dự báo: yi = Ti . Ci . Si . Ii Ti: Giá trị của yếu tố xu hướng Ci: Giá trị của yếu tố chu kỳ Si: Giá trị của yếu tố thời vụ Ii: Giá trị của yếu tố ngẫu nhiên TCSyˆ  IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN Sử dụng số liệu sau để cùng tìm hiểu cách tính T, S, C Ví dụ: Doanh số bán của công ty từ năm 2005-2008 Năm Quý Doanh số Năm Quý Doanh số 2005 I 170 2007 I 157 II 148 II 145 III 141 III 128 IV 150 IV 134 2006 I 161 2008 I 160 II 137 II 139 III 132 III 130 IV 158 IV 144 IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN 2.1. Tính xu hướng: Sử dụng hàm hồi qui thep thời gian: t1,13,155T  Năm Quý Doanh số t T 2005 I 170 1 154,2 II 148 2 153,1 III 141 3 152,0 IV 150 4 150,9 2006 I 161 5 149,8 II 137 6 148,7 III 132 7 147,6 IV 158 8 146,5 2007 I 157 9 145,4 II 145 10 144,3 III 128 11 143,2 IV 134 12 142,1 2008 I 160 13 141,0 II 139 14 139,9 III 130 15 138,8 IV 144 16 137,7 1/2/2012 6 IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN      1m 0j ji * 2/)1m(i y.m 1y Năm Quý Doanh số t T y* C(%)m=4 m=2 2005 I 170 1 154,2 II 148 2 153,1 III 141 3 152,0 152,3 151,1 99,4 IV 150 4 150,9 150,0 148,6 98,5 2006 I 161 5 149,8 147,3 146,1 97,5 II 137 6 148,7 145,0 146,0 98,2 III 132 7 147,6 147,0 146,5 99,3 IV 158 8 146,5 146,0 147,0 100,3 2007 I 157 9 145,4 148,0 147,5 101,4 II 145 10 144,3 147,0 144,0 99,8 III 128 11 143,2 141,0 141,4 98,7 IV 134 12 142,1 141,8 141,0 99,2 2008 I 160 13 141,0 140,3 140,5 99,6 II 139 14 139,9 140,8 142,0 101,5 III 130 15 138,8 143,3 IV 144 16 137,7 2.2. Tính chu kỳ: C = TC/T = y*/T Số trung bình di động: Khi m chẵn tính thêm m=2 IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN 2.3. Tính chỉ số thời vụ Năm Quý Doanh số t T y* C SIm=4 m=2 2005 I 170 1 154,2 II 148 2 153,1 III 141 3 152,0 152,3 151,1 99,4 93,3 IV 150 4 150,9 150,0 148,6 98,5 100,9 2006 I 161 5 149,8 147,3 146,1 97,5 110,2 II 137 6 148,7 145,0 146,0 98,2 93,84 III 132 7 147,6 147,0 146,5 99,3 90,1 IV 158 8 146,5 146,0 147,0 100,3 107,5 2007 I 157 9 145,4 148,0 147,5 101,4 106,4 II 145 10 144,3 147,0 144,0 99,8 100,7 III 128 11 143,2 141,0 141,4 98,7 90,54 IV 134 12 142,1 141,8 141,0 99,2 95,04 2008 I 160 13 141,0 140,3 140,5 99,6 113,9 II 139 14 139,9 140,8 142,0 101,5 97,89 III 130 15 138,8 143,3 IV 144 16 137,7 *y Doanhso TC TCSI SI  IV. DỰ BÁO BẰNG MÔ HÌNH NHÂN 2.3. Tính chỉ số thời vụ điều chỉnh: S Năm Quí I Quí II Quí III Quí IV Tổng 2005 93,3 100,9 2006 110,2 93,8 90,1 107,5 2007 106,4 100,7 90,5 95,0 2008 113,9 97,9 E(SI) 110,17 97,47 91,30 101,13 400,07 S 110,15 97,45 91,28 101,12 )SI(E 400S  Theo quý

Các file đính kèm theo tài liệu này:

  • pdfnguyenlythongke_9677.pdf
Tài liệu liên quan