Bài giảng Hồi quy bội

Phân tích phần dư ? Các phần dư chuẩn hoá thường được sử dụng trong các biểu đồ phần dư nhằm mục đích: • Nhận biết các phần tử bất thường (thông thường, các phần dư chuẩn hoá < -2 hoặc > +2). • Cung cấp một sự hiểu biết sâu sắc về các giả định rằng số hạng sai sốecó phân phối chuẩn. ? Việc tính toán các phần dư đã chuẩn hoá trong phân tích hồi quy bội thì quá phức tạp để thực hiện bằng tay. ? Công cụ Regression của Excel có thể được sử dụng

pdf56 trang | Chia sẻ: maiphuongtl | Lượt xem: 3130 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Bài giảng Hồi quy bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Chương 5 Hồi quy bội „ Mô hình hồi quy bội „ Phương pháp bình phương bé nhất „ Hệ số xác định bội „ Các giả định của mô hình „ Kiểm định ý nghĩa „ Sử dụng phương trình hồi quy ước lượng để ước lượng và dự báo „ Biến độc lập định tính „ Phân tích phần dư 2GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Mô hình hồi quy bội „ Mô hình hồi quy bội y = β0 + β1x1 + β2x2 + . . . + βpxp+ ε „ Phương trình hồi quy bội E(y) = β0 + β1x1 + β2x2 + . . . + βpxp „ Phương trình hồi quy bội ước lượng y = b0 + b1x1 + b2x2 + . . . + bpxp^ 3GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Quy trình ước lượng Mơ hình hồi quy bội E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp + ε Phương trình hồi quy bội E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp Các tham số khơng biết là β0, β1, β2, . . . , βp Dữ liệu mẫu: x1 x2 . . . xp y . . . . . . . . 0 1 1 2 2ˆ ... p py b b x b x b x= + + + + Phương trình hồi quy bội ước lượng Các số thống kê mẫu là b0, b1, b2, . . . , bp b0, b1, b2, . . . , bp đưa ra các ước lượng cho β0, β1, β2, . . . , βp 4GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Phương pháp bình phương bé nhất „ Tiêu chuẩn bình phương bé nhất „ Tính toán giá trị của các hệ số Các công thức tính các hệ số hồi quy b0, b1, b2, . . . bp liên quan đến việc sử dụng đại số ma trận. Chúng ta sẽ dựa vào các gói phần mềm máy tính để thực hiện các tính toán. „ Lưu ý về việc giải thích các hệ số bi là ước lượng của sự thay đổi trong y tương ứng với một đơn vị thay đổi trong xi khi tất cả các biến độc lập khác được giữ không thay đổi. min ( iy yi−∑ )2^ 5GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Hệ số xác định bội „ Mối liên hệ giữa SST, SSR, SSE SST = SSR + SSE „ Hệ số xác định bội R 2 = SSR/SST „ Hệ số xác định bội điều chỉnh ( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2^^ R R n n pa 2 21 1 1 1 = − − −− −( ) 6GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Các giả định của mô hình „ Các giả định về số hạng sai số ε y Sai số ε là một biến ngẫu nhiên có trung bình bằng 0. y Phương sai của ε , ký hiệu bằng σ 2, là bằng nhau với mọi giá trị của các biến độc lập. y Các giá trị của ε độc lập với nhau. y Sai số ε là một biến ngẫu nhiên có phân phối chuẩn phản ánh độ lệch giữa giá trị y và giá trị kỳ vọng của y được cho bởi β0 + β1x1 + β2x2 + . . . + βpxp 7GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Kiểm định ý nghĩa: Kiểm định F „ Các giả thuyết H0: β1 = β2 = . . . = βp = 0 Ha: Không phải tất cả βj = 0 (có ít nhất một βj ≠ 0). „ Thống kê kiểm định F = MSR/MSE „ Quy tắc bác bỏ Sử dụng thống kê kiểm định: Bác bỏ H0 nếu F > Fα Sử dụng giá trị p: Bác bỏ H0 nếu giá trị p < α trong đó Fα dựa vào phân phối F với p bậc tự do ở tử số và n - p - 1 bậc tự do ở mẫu số 8GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Kiểm định ý nghĩa: Kiểm định F „ Bảng ANOVA (giả sử có p biến độc lập) Source of Sum of Degrees of Mean Variation Squares Freedom Squares F Regression SSR p Error SSE n - p - 1 Total SST n - 1 SSRMSR p = SSEMSE 1n p = − − MSR MSE F = 9GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Kiểm định ý nghĩa: Kiểm định t „ Các giả thuyết H0: βi = 0 Ha: βi = 0 „ Thống kê kiểm định „ Quy tắc bác bỏ Sử dụng thống kê kiểm định: Bác bỏ H0 nếu ⎜t⎟ > tα/2 Sử dụng giá trị p: Bác bỏ H0 nếu giá trị p < α trong đó tα/2 dựa vào phân phối t với n - p - 1 bậc tự do t b s i bi = 10GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Đa cộng tuyến „ Thuật ngữ đa công tuyến (multicollinearity) nói đến sự tương quan giữa các biến độc lập. „ Ví dụ như các biến x1 và x2 cộng tuyến hoàn hảo nếu x1 = b0 + b1x2 với các số thực b0 và b1 nào đó. „ Hai biến này nằm trên một đường thẳng, và một trong hai biến hoàn toàn xác định biến khác. Không có thông tin mới về y thu được bằng cách thêm x2 vào phương trình hồi quy đã bao gồm x1 (hay ngược lại). 11GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Một ví dụ số cụ thể „ Hãy xem dữ liệu có tính giả thuyết sau: „ Có thể thấy rõ ràng là x2i = 5x1i. Vì vậy có sự cộng tuyến hoàn hảo giữa x1 và x2 bởi vì hệ số tương quan . „ Biến x2* được tạo thành từ x2 đơn giản bằng cách cộng thêm các số sau, những số này được lấy từ bảng số ngẫu nhiên: 2, 0, 7, 9, 2. Bây giờ, không còn có sự cộng tuyến hoàn hảo giữa biến x1 và x2*. Tuy nhiên, hai biến này tương quan chặt bởi vì . 75 75 15 52 50 10 X2* X2 X1 15212997 15012090 302418 = 1 2 1x xr =* 1 2 0,9959x xr 12GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Hậu quả của đa cộng tuyến „ Phương sai của các hệ số hồi quy bị phóng đại. „ Độ lớn của các hệ số hồi quy có thể khác với những gì được kỳ vọng. „ Dấu của các hệ số hồi quy có thể không như kỳ vọng. „ Thêm vào hay bớt đi các biến cộng tuyến với các biến khác tạo ra những thay đổi lớn về các hệ số. „ Bỏ một điểm dữ liệu có thể gây ra những thay đổi lớn về ước lượng hay dấu của các hệ số. „ Trong một số trường hợp, tỷ số F có thể có ý nghĩa nhưng các tỷ số t thì không. 13GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Cách phát hiện đa cộng tuyến „ Hệ số xác định R 2 cao nhưng tỷ số |t| thấp „ Hệ số tương quan giữa các cặp biến độc lập cao. Quy tắc kinh nghiệm là khi |r| > 0,7. „ Sử dụng hồi quy phụ „ Nhân tử phóng đại phương sai VIF. Quy tắc kinh nghiệm là khi VIFj > 10 thì mức độ cộng tuyến được xem là cao. >2 0,9jR 14GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Cách phát hiện đa cộng tuyến: Nhân tử phóng đại phương sai 1,00,50,0 100 50 0 Rh2 VIF Mối liên hệ giữa VIF và Rh2 Nhân tử phóng đại phương sai liên hệ với xh: ( ) 211h hVIF x R= − vớiù là giá trị R2 nhận được khi hồi quy x, như là biến độc lập, theo các biến độc lập còn lại. 2 hR 15GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Cách giải quyết vấn đề đa cộng tuyến „ Bỏ một biến cộng tuyến khỏi mô hình „ Thay đổi kế hoạch lấy mẫu để đưa vào những phần tử ngoài phạm vi đa cộng tuyến „ Biến đổi các biến (transformations of variables) „ Hồi quy dạng sóng (ridge regression) 16GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Đa cộng tuyến và dự báo „ Khi xảy ra đa cộng tuyến ta không thể xác định được tác động riêng biệt của bất cứ biến độc lập cụ thể nào lên biến phụ thuộc. Tuy nhiên, nếu phương trình hồi quy ước lượng sẽ được sử dụng chỉ cho các mục đích dự báo, thì đa cộng tuyến thường không phải là một vấn đề quan trọng. 17GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng phương trình hồi quy ước lượng để ước lượng và tiên đoán „ Thủ tục để ước lượng giá trị trung bình của y và tiên đoán một giá trị cá biệt của y trong hồi quy bội tương tự với các thủ tục trong hồi quy đơn. „ Chúng ta thay các giá trị đã cho của x1, x2, . . . , xp vào phương trình hồi quy ước lượng và sử dụng các giá trị tương ứng của y làm ước lượng điểm. „ Các công thức cần thiết để xây dựng các ước lượng khoảng cho giá trị trung bình của y và cho một giá trị cá biệt của y vượt ngoài phạm vi của bài giảng này. „ Các gói phần mềm cho hồi quy bội thường sẽ cung cấp các ước lượng khoảng này. 18GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên Một công ty phần mềm đã thu thập số liệu cho một mẫu gồm 20 lập trình viên máy tính. Một đề xuất được đưa ra là phân tích hồi quy có thể được sử dụng để xác định xem tiền lương (Salary) có liên hệ với số năm kinh nghiệm (Exper.) và số điểm đạt được dựa trên trắc nghiệm năng khiếu lập trình viên của công ty (Score). Số năm kinh nghiệm, số điểm đạt được dựa trên trắc nghiệm năng khiếu và tiền lương theo năm tương ứng (1.000$) cho một mẫu gồm 20 lập trình viên được cho ở slide kế tiếp. 19GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên Exper. Score Salary Exper. Score Salary 4 78 24 9 88 38 7 100 43 2 73 26,6 1 86 23,7 10 75 36,2 5 82 34,3 5 81 31,6 8 86 35,8 6 74 29 10 84 38 8 87 34 0 75 22,2 4 79 30,1 1 80 23,1 6 94 33,9 6 83 30 3 70 28,2 6 91 33 3 89 30 20GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên „ Mô hình hồi quy bội Giả sử ta tin là tiền lương (y) có liên quan với số năm kinh nghiệm (x1) và số điểm đạt được dựa trên trắc nghiệm năng khiếu lập trình viên (x2) theo mô hình hồi quy sau: y = β0 + β1x1 + β2x2 + ε trong đó y = tiền lương hàng năm (000$) x1 = số năm kinh nghiệm x2 = số điểm đạt được dựa trên trắc nghiệm năng khiếu lập trình viên 21GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên „ Mô hình hồi quy bội Sử dụng giả định E(ε ) = 0, ta có E(y) = β0 + β1x1 + β2x2 „ Phương trình hồi quy ước lượng b0, b1, b2 là các ước lượng theo phương pháp bình phương bé nhất của β0, β1, β2 Do đó y = b0 + b1x1 + b2x2^ 22GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên „ Giải tìm các ước lượng của β0, β1, β2 Gói phần mềm để giải các bài toán hồi quy bội b0 = b1 = b2 = R2 = v.v… Nhập liệu Xuất liệu theo bình phương bé nhất x1 x2 y 4 78 24 7 100 43 . . . . . . 3 89 30 23GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính công thức (trình bày dữ liệu được nhập vào) A B C D 1 Programmer Experience (yrs) Test Score Salary ($K) 2 1 4 78 24.0 3 2 7 100 43.0 4 3 1 86 23.7 5 4 5 82 34.3 6 5 8 86 35.8 7 6 10 84 38.0 8 7 0 75 22.2 9 8 1 80 23.1 Lưu ý: Các dòng 10-21 không được trình bày. 24GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Thực hiện phân tích hồi quy bội Bước 1 Chọn menu kéo xuống Tools Bước 2 Chọn dùng Data Analysis Bước 3 Chọn dùng Regression từ danh sách Analysis Tools … còn nữa Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng 25GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Thực hiện phân tích hồi quy bội Bước 4 Khi hộp thoại Regression hiện ra: Nhập D1:D21 vào hộp Input Y Range Nhập B1:C21 vào hộp Input X Range Chọn Labels Chọn Confidence Level Nhập 95 vào hộp Confidence Level Chọn Output Range và nhập A24 vào hộp Output Range Nhắp chuột vào OK Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng 26GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Bảng tính giá trị (Regression Statistics) Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng A B C 23 24 SUMMARY OUTPUT 25 26 Regression Statistics 27 Multiple R 0.913334059 28 R Square 0.834179103 29 Adjusted R Square 0.814670762 30 Standard Error 2.418762076 31 Observations 20 32 27GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Bảng tính giá trị (ANOVA Output) Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng A B C D E F 32 33 ANOVA 34 df SS MS F Significance F 35 Regression 2 500.3285 250.1643 42.76013 2.32774E-07 36 Residual 17 99.45697 5.85041 37 Total 19 599.7855 38 Giá trị Significance F ở ô F35 là giá trị p (p-value) được dùng để kiểm định mức ý nghĩa toàn bộ. 28GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Bảng tính giá trị (Regression Equation Output) Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercept 3.17394 6.15607 0.5156 0.61279 41 Experience 1.4039 0.19857 7.0702 1.9E-06 42 Test Score 0.25089 0.07735 3.2433 0.00478 43 Lưu ý: Các cột F-I không được trình bày. Giá trị P (P-value) ở ô E41 được dùng để kiểm định mức ý nghĩa riêng của Experience. 29GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Bảng tính giá trị (Regression Equation Output) Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercept 3.17394 6.15607 0.5156 0.61279 41 Experience 1.4039 0.19857 7.0702 1.9E-06 42 Test Score 0.25089 0.07735 3.2433 0.00478 43 Lưu ý: Các cột F-I không được trình bày. Giá trị P (P-value) ở ô E42 được dùng để kiểm định mức ý nghĩa riêng của Test Score. 30GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Phương trình hồi quy ước lượng SALARY = 3,174 + 1,404(EXPER) + 0,2509(SCORE) Lưu ý: Tiền lương dự báo sẽ tính theo ngàn đô la Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng 31GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn „ Bảng tính giá trị (Regression Equation Output) Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng A B F G H I 38 39 Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0% 40 Intercept 3.17394 -9.814248 16.1621 -9.814248 16.1621 41 Experience 1.4039 0.984962 1.82284 0.984962 1.82284 42 Test Score 0.25089 0.087682 0.41409 0.087682 0.41409 43 Lưu ý: Các cột C-E đã được giấu đi. 32GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên „ Kiểm định F • Các giả thuyết H0: β1 = β2 = 0 Ha: Một hoặc cả hai tham số không bằng 0. • Quy tắc bác bỏ Với α = 0,05 và df = 2; 17: F0,05; 2; 17 = 3,59 Bác bỏ H0 nếu F > 3,59. • Giá trị thống kê kiểm định F = MSR/MSE = 250,16/5,85 = 42,76 • Kết luận Ta có thể bác bỏ H0. 33GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên „ Kiểm định t về ý nghĩa của từng tham số • Các giả thuyết H0: βi = 0 Ha: βi = 0 • Quy tắc bác bỏ Với α = 0,05 và df = 17, t0,025; 17 = 2,11 Bác bỏ H0 nếu t > 2,11 • Giá trị thống kê kiểm định • Kết luận Bác bỏ H0: β1 = 0 Bác bỏ H0: β2 = 0 1 1 1, 4039 7,07 0,1986b b s = = 2 2 0, 25089 3,24 0,07735b b s = = 34GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Biến độc lập định tính „ Trong nhiều tình huống ta phải làm việc với các biến độc lập định tính như giới tính (nam, nữ), phương thức thanh toán (tiền mặt, séc, thẻ tín dụng), v.v… „ Ví dụ như x2 có thể là giới tính trong đó x2 = 0 chỉ nam và x2 = 1 chỉ nữ. „ Trong trường hợp này, x2 được gọi là một biến giả hay biến chỉ báo. „ Nếu một biến định tính có k mức độ thì ta cần có k - 1 biến giả, mỗi biến giả được mã hoá là 0 hoặc 1. „ Ví dụ như một biến có các mức độ A, B, và C sẽ được biểu thị bằng các giá trị x1 và x2 một cách tương ứng là (0, 0), (1, 0), và (0,1). 35GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) Như là một sự mở rộng của vấn đề liên quan đến khảo sát tiền lương của lập trình viên máy tính, giả sử là ban giám đốc còn tin rằng tiền lương năm có quan hệ với việc lập trình viên có bằng tốt nghiệp đại học về khoa học máy tính hay hệ thống thông tin hay không. Số năm kinh nghiệm, điểm đạt được trong kỳ thi trắc nghiệm năng khiếu lập trình viên, có bằng đại học có liên quan hay không, và tiền lương hàng năm (000$) cho từng người trong số 20 lập trình viên được lấy mẫu được trình bày trong slide tiếp theo. 36GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) Exp. Score Degr. Salary Exp. Score Degr. Salary 4 78 No 24 9 88 Yes 38 7 100 Yes 43 2 73 No 26,6 1 86 No 23,7 10 75 Yes 36,2 5 82 Yes 34,3 5 81 No 31,6 8 86 Yes 35,8 6 74 No 29 10 84 Yes 38 8 87 Yes 34 0 75 No 22,2 4 79 No 30,1 1 80 No 23,1 6 94 Yes 33,9 6 83 No 30 3 70 No 28,2 6 91 Yes 33 3 89 No 30 37GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) „ Phương trình hồi quy bội E(y) = β0 + β1x1 + β2x2 + β3x3 „ Phương trình hồi quy ước lượng y = b0 + b1x1 + b2x2 + b3x3 trong đó y = tiền lương năm (000$) x1 = số năm kinh nghiệm x2 = số điểm đạt được dựa trên trắc nghiệm năng khiếu lập trình viên x3 = 0 nếu lập trình viên không có bằng đại học 1 nếu lập trình viên có bằng đại học Lưu ý: x3 được xem như là một biến giả. ^ 38GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính công thức (trình bày dữ liệu) A B C D E 1 Pro- grammer Experience (years) Test Score Grad. Degree Salary ($000) 2 1 4 78 0 24.0 3 2 7 100 1 43.0 4 3 1 86 0 23.7 5 4 5 82 1 34.3 6 5 8 86 1 35.8 7 6 10 84 1 38.0 8 7 0 75 0 22.2 Lưu ý: Các hàng 9-21 không được trình bày. 39GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính giá trị (Regression Statistics) A B C 23 24 SUMMARY OUTPUT 25 26 Regression Statistics 27 Multiple R 0.920215239 28 R Square 0.846796085 29 Adjusted R Square 0.818070351 30 Standard Error 2.396475101 31 Observations 20 32 40GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính giá trị (ANOVA Output) A B C D E F 32 33 ANOVA 34 df SS MS F Significance F 35 Regression 3 507.896 169.2987 29.47866 9.41675E-07 36 Residual 16 91.88949 5.743093 37 Total 19 599.7855 38 41GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính giá trị (Regression Equation Output) A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercept 7.94485 7.3808 1.0764 0.2977 41 Experience 1.14758 0.2976 3.8561 0.0014 42 Test Score 0.19694 0.0899 2.1905 0.04364 43 Grad. Degr. 2.28042 1.98661 1.1479 0.26789 Lưu ý: Các cột F-I không được trình bày. 42GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng công cụ Regression của Excel để xây dựng phương trình hồi quy bội ước lượng „ Bảng tính giá trị (Regression Equation Output) A B F G H I 38 39 Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0% 40 Intercept 7.94485 -7.701739 23.5914 -7.7017385 23.591436 41 Experience 1.14758 0.516695 1.77847 0.51669483 1.7784686 42 Test Score 0.19694 0.00635 0.38752 0.00634964 0.3875243 43 Grad. Degr. 2.28042 -1.931002 6.49185 -1.9310017 6.4918494 Lưu ý: Các cột C-E đã được dấu đi. 43GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) „ Giải thích các tham số • b1 = 1,15 Tiền lương được kỳ vọng tăng 1.150$ cho mỗi năm kinh nghiệm tăng thêm (khi tất cả các biến độc lập khác được giữ không thay đổi) 44GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) „ Giải thích các tham số • b2 = 0,197 Tiền lương được kỳ vọng tăng 197$ cho mỗi điểm tăng thêm đạt được trong trắc nghiệm năng khiếu lập trình viên (khi tất cả các biến độc lập khác được giữ không thay đổi) 45GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Ví dụ: Khảo sát tiền lương của lập trình viên (B) „ Giải thích các tham số • b3 = 2,28 Tiền lương được kỳ vọng cao hơn 2.280$ đối với người có bằng đại học so với người không có bằng đại học (khi tất cả các biến độc lập khác được giữ không thay đổi) 46GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Phân tích phần dư „ Đối với hồi quy tuyến tính đơn biểu đồ phần dư dựa vào và biểu đồ phần dư dựa vào x cung cấp cùng một thông tin. „ Trong phân tích hồi quy bội sử dụng biểu đồ phần dư dựa vào để quyết định xem các giả định của mô hình có được thoả mãn không thì thích hợp hơn. yˆ yˆ 47GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Phân tích phần dư „ Các phần dư chuẩn hoá thường được sử dụng trong các biểu đồ phần dư nhằm mục đích: • Nhận biết các phần tử bất thường (thông thường, các phần dư chuẩn hoá +2). • Cung cấp một sự hiểu biết sâu sắc về các giả định rằng số hạng sai số ε có phân phối chuẩn. „ Việc tính toán các phần dư đã chuẩn hoá trong phân tích hồi quy bội thì quá phức tạp để thực hiện bằng tay. „ Công cụ Regression của Excel có thể được sử dụng. 48GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng Excel để xây dựng biểu đồ phần dư chuẩn hoá „ Bảng tính giá trị (Residual Output) A B C D 28 29 RESIDUAL OUTPUT 30 31 Observation Predicted Y Residuals Standard Residuals 32 1 27.89626052 -3.89626052 -1.771706896 33 2 37.95204323 5.047956775 2.295406016 34 3 26.02901122 -2.32901122 -1.059047572 35 4 32.11201403 2.187985973 0.994920596 36 5 36.34250715 -0.54250715 -0.246688757 Lưu ý: Các dòng 37-51 không được trình bày. 49GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Sử dụng Excel để xây dựng biểu đồ phần dư chuẩn hoá Standardized Residual Plot -2 -1 0 1 2 3 0 10 20 30 40 50 Predicted Salary S t a n d a r d R e s i d u a l s Outlier 50GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Nghiên cứu tính hợp lý (validity) của hồi quy: Các phần tử bất thường và quan sát cĩ ảnh hưởng . . . .. . . . .. .. ... . * Outlier y x Regression line without outlier Regression line with outlier Outliers ... .... ... .. . . . Point with a large value of xiy x * Regression line when all data are included No relationship in this cluster Influential Observations 51GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Hồi quy đa thức Mơ hình hồi quy đa thức một biến: Y= β0+β1 X + β2X2 + β3X3 +. . . + βmXm +ε trong đĩ m là the bậc của đa thức – lũy thừa cao nhất của X xuất hiện trong mơ hình. Bậc của đa thức là bậc của mơ hình. X1 Y X1 Y y b b X= +0 1  ( ) y b b X b X b = + + < 0 1 2 2 2 0 y b b X= +0 1 y b b X b X b X= + + +0 1 2 2 3 3 52GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Mơ hình hồi quy bội cho tính mùa cộng tính Năm Mùa 1 2 3 4 5 Thu 3497 3726 3989 4248 4443 Đông 3484 3589 3870 4105 4307 Xuân 3553 3742 3996 4263 4466 Hạ 3837 4050 4327 4544 4795 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 5000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Thời đoạn L ư ơ ï n g x a ê n g b a ù n t r u n g b ì n h h a ø n g n g a ø y ( g a l o â n g ) 53GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Mơ hình hồi quy bội cho tính mùa cộng tính „ Mơ hình cộng tính (bỏ qua thành phần chu kỳ) là: trong đĩ: 0 1 2 3 4β β β β β ε= + + + + + ty t F W S số hạng ngẫu nhiên ở thời đoạn tεt = biến chỉ báo cho mùa xuânS = biến chỉ báo cho mùa đơngW = biến chỉ báo cho mùa thuF = nhân tốmùa cho mùa xuânβ4 = nhân tốmùa cho mùa đơngβ3 = nhân tốmùa cho mùa thuβ2 = độ dốc (xu hướng) của chuỗi thời gianβ1 = mức độ của chuỗi thời gianβ0 = số thời đoạnt = 54GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Nhập liệu 55GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Xuất liệu từ Excel 56GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn Các giai đoạn xây dựng mơ hình Đặc trưng mơ hình Ước lượng hệ số Kiểm tra mơ hình Diễn giải và suy diễn

Các file đính kèm theo tài liệu này:

  • pdfchuong_5_hoi_quy_boi_7289.pdf