Kinh tế lượng - Hồi qui tuyến tính bội

Các điều kiện về dạng mô hình :  Tuyến tính của các biến độc lập so với biến phụ thuộc Các điều kiện về sai số mô hình (error):  Cácsaisốmôhìnhlà độclập (khôngtự tương quan) vàphânphốigiốngnhautheo phânphốichuẩnvới trungbìnhbằng0vàvariances 2 (homoscédasticité) Các điều kiện về các số dự đoán :  Các biến độc lập không ngẫu nhiên  Các giá trị của các biến độc lập được đo lường không có sai số  Cácsốdựđoán(prédicteurs) là độclập theo đường thẳng, (không cóbộitương quangiữacácbiếnđộc lập -multicollinearity)

pdf83 trang | Chia sẻ: tlsuongmuoi | Lượt xem: 2471 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Kinh tế lượng - Hồi qui tuyến tính bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Hồi qui tuyến tính bội 2Các nội dung chính  Ôn lại mô hình hồi qui tuyến tính bội  Kiểm tra các điều kiện áp dụng mô hình  Chỉnh sửa các vấn đề  Số liệu quan sát sai lệch  Các biến giả (dummy)  Phương pháp stepwise  Sự tương tác (Interaction) 3Y X X Xi i i k ki i=     b b b b e1 2 2 3 3 Mô hình hồi qui bội Mối liên hệ giữa một biến phụ thuộc với ít nhất hai biến độc lập là một hàm tuyến tính Biến phụ thuộc (đáp số) Các biến độc lập Các hệ số hồi qui của tổng thể Hệ số chặn (hằng số) Sai số ngẫu nhiên 4Mô hình hồi qui bội đối với tổng thể Mô hình hai biến Đáp số b0 Yi=b1+ b2X2i+ b3X3i + ei Y X1 X2 ei E(Y)=b1+ b2X2+ b3X3 5Mô hình hồi qui bội đối với một mẫu Mô hình hai biến Y Đáp số X1 X2 b0 ei Yi=b1+ b2X2i+ b3X3i + ei 6Ví dụ về hồi tuyến tính qui bội Phát triển một mô hình để giải thích về giá của một ngôi nhà theo diện tích và tuổi của nó, lấy từ một mẫu 319 ngôi nhà vừa bán gần đây nhất. 7Ví dụ về hồi qui tuyến tính bộitiếp 8Ví dụ về hồi qui qui tuyến tính bộitiếp Coefficients a 70015,462 5900,669 11,866 ,000 72,500 2,880 ,716 25,172 ,000 ,995 1,005 -1657,031 108,867 -,433 -15,221 ,000 ,995 1,005 (Constant) surf ace age Model 1 B Std. Error Unstandardized Coef f icients Beta Standardi zed Coef f icien ts t Sig. Tolerance VIF Collinearity Statis tics Dependent Variable: prixa. 9Diễn giải các hệ số của một hàm hồi qui bội  Các hệ số gốc (bj) Sự biến đổi của giá trị trung bình của các Y khi Xj tăng thêm 1 đơn vị, mọi yếu tố khác không đổi. Kiểm định: tương tự như hồi qui đơn với (n-k) bậc tự do  Hệ số chặn - hằng số (b0) Giá trị trung bình của Y khi Xj = 0 10 Ví dụ về hồi qui tuyến tính bộitiếp Coefficientsa 70015,462 5900,669 11,866 ,000 72,500 2,880 ,716 25,172 ,000 ,995 1,005 -1657,031 108,867 -,433 -15,221 ,000 ,995 1,005 (Constant) surface age Model 1 B Std. Error Unstandardized Coefficients Beta Standardi zed Coefficien ts t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. Với mỗi piê (hơn 30 cm) vuông tăng thêm, giá trung bình tăng thêm 72,50$ Với mỗi năm tuổi tăng thêm, giá trung bình giảm đi 1657,03$. =70 015,46+ 72,50X1i- 1 657,03X2iiYˆ 11 Hệ số xác định bội  Tỉ lệ biến đổi của biến phụ thuộc được giải thích bằng tất cả các biến độc lập R2 = Biến đổi được giải thích = ESS Tổng biến đổi TSS  Không bao giờ giảm khi các đại lượng được thêm vào  Vấn đề khi ta so sánh các mô hình 12 10        RR k - n 1 - n )R - (1 - 1 = R 22 22 Trong hồi qui bội, ta sử dụng hệ số xác định điều chỉnh Hệ số xác định bội điều chỉnh 13 Model Summaryb ,863a ,746 ,744 $32,014.32 1,344 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), age, surfacea. Dependent Variable: prixb. Ví dụ về hồi qui bội tiếp R2 R2 điều chỉnh 14 Kiểm định mức ý nghĩa tổng quát BẢNG PHÂN TÍCH PHƯƠNG SAI MC df SC MCR=RSS/p F Regression k-1 RSS MCE=ESS/(n-k) MCR/MCE Residue n-k ESS Total n-1 TSS 15 ANOVAb 9,49E+11 2 4,746E+11 463,042 ,000a 3,24E+11 316 1024916646 1,27E+12 318 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. Predictors: (Constant), age, surfacea. Dependent Variable: prixb. Ví dụ về hồi qui bội k-1 = 2, số các biến độc lập n - 1 mức ý nghĩa (p-value) tiếp F với k-1 bậc tự do ở tử số và n-k ở mẫu sốn - k 16 Ví dụ về hồi qui bội F0 3.02 H0: b1 = b2 =…= bk = 0 H1: ít nhất là 1 trong những bi  0  = .05 bậc tự do= 2 và 316 Giá trị tới hạn Thống kê kiểm định: Quyết định: Kết luận: Bác bỏ với rủi ro mức  = 0.05 Có ít nhất một trong các biến phụ thuộc có liên quan đến Y  = 0.05 F = 463.04 tiếp 3,024311468 =INVERSE.LOI.F(0,05;2;316) 17 Kiểm định mức ý nghĩa đối với mỗi biến  Chỉ ra xem liệu có mối liên hệ tuyến tính giữa Xj và Y  Sử dụng thống kê Student với n-k bậc tự do  Các giả thuyết:  H0: bi = 0 (Không có mối liên hệ tuyến tính)  H1: bi  0 (có mối liên hệ tuyến tính giữa Xj và Y) 18 Coefficientsa 70015,462 5900,669 11,866 ,000 72,500 2,880 ,716 25,172 ,000 ,995 1,005 -1657,031 108,867 -,433 -15,221 ,000 ,995 1,005 (Constant) surface age Model 1 B Std. Error Unstandardized Coefficients Beta Standardi zed Coefficien ts t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. Ví dụ về hồi qui bội tiếp i i t b b s b * ˆ ˆ ˆ = 19 Các điều kiện vận dụng mô hình  Các điều kiện về dạng mô hình :  Tuyến tính của các biến độc lập so với biến phụ thuộc  Các điều kiện về sai số mô hình (error):  Các sai số mô hình là độc lập (không tự tương quan) và phân phối giống nhau theo phân phối chuẩn với trung bình bằng 0 và variance s2 (homoscédasticité)  Các điều kiện về các số dự đoán :  Các biến độc lập không ngẫu nhiên  Các giá trị của các biến độc lập được đo lường không có sai số  Các số dự đoán (prédicteurs) là độc lập theo đường thẳng, (không có bội tương quan giữa các biến độc lập - multicollinearity)  Các điều kiện về quan sát:  Tất cả các quan sát có cùng một vai trò 20 Mô hình với ảnh hưởng cố định ngược với mô hình với ảnh hưởng ngẫu nhiên  Về nguyên tắc, hồi qui được thực hiện đối với các mô hình có ảnh hưởng cố định  Các biến độc lập được kiểm soát  Mô hình cũng hoạt động đối với các biến có ảnh hưởng ngẫu nhiên  Các biến độc lập là ngẫu nhiên  Về nguyên tắc, các biến này phải tuân theo một phân phối chuẩn đa biến 21 Tuyến tính  Vẽ biểu đồ từng phần (partial plots)  Để đánh giá đặc trưng tuyến tính của một biến Xj so với Y, chúng ta hồi qui Y về toàn bộ các biến độc lập trừ Xj, và chúng ta hồi qui Xj bằng các biến độc lập khác  Chúng ta vẽ biểu đồ các phần dư (residues) của hai hồi qui. Như vậy, chúng ta loại bỏ hiệu lực của các biến độc lập khác. 22 Tuyến tính tiếp Partial Regression Plot Dependent Variable: prix surface 3000200010000-1000-2000 p ri x 200000 100000 0 -100000 -200000 23 Tuyến tính tiếp Partial Regression Plot Dependent Variable: prix age 806040200-20 p ri x 200000 100000 0 -100000 -200000 24 Scatterplot Dependent Variable: prix Regression Adjusted (Press) Predicted Value 4000003000002000001000000 R e g re s s io n S tu de nt iz e d R e si d u al 4 2 0 -2 -4 Biểu đồ phần dư (residues) 25 Biểu đồ (histogram) phần dư (residues) Regression Standardized Residual 3,25 2,75 2,25 1,75 1,25 ,75 ,25 -,25 -,75 -1,25 -1,75 -2,25 -2,75 -3,25 -3,75 Histogram Dependent Variable: prix F re q u e n c y 60 50 40 30 20 10 0 Std. Dev = 1,00 Mean = 0,00 N = 319,00 26 Normal probability plot (Đồ thị theo hàm chuẩn) Normal P-P Plot of Regression Standardized Residual Dependent Variable: prix Observed Cum Prob 1,00,75,50,250,00 E xp e ct e d C u m P ro b 1,00 ,75 ,50 ,25 0,00 27 Hai kiểm định nhanh để kiểm tra phân phối chuẩn  Nhờ vào hệ số mất cấn đối (skewness)  Trong đó, n là kích thước mẫu  Nhờ vào kurtose  Trong đó, n là kích thước mẫu  Nếu giá trị tuyệt đối của Z lớn hơn 1.96, phân phối là không chuẩn với sai số ở mức rủi ro 5% n 6 skewness =Z n 24 kurtose =Z 28 Sự bội tương quan giữa các biến độc lập (multicollinearity)  Có sự tương quan lớn giữa các biến độc lập  Các hệ số đo lường ảnh hưởng phối hợp  Dẫn đến các hệ số không ổn định khi chúng ta thêm các biến vào mô hình hồi qui. Dấu của các hệ số có thể đảo ngược.  Luôn tồn tại, nhưng ở các mức độ ít nhiều quan trọng  Qui tắc kinh nghiệm:  Tính tất cả các sự tương quan giữa các biến độc lập  Nếu không có sự tương quan nào giữa các biến độc lập vượt quá 0.8 và những sự tương quan giữa biến phụ thuộc và các biến độc lập lớn hơn các sự tương quan giữa các biến độc lập, coi như không có multicollinearity 29 Kiểm tra Đa cộng tuyến (Tolerance)  Đối với biến Xj , tolerance bằng 1-Rj2 với Rj là hệ số xác định của biến Xj được hồi qui bởi tất cả các biến độc lập khác  Các giá trị nhỏ của tolerance chỉ ra có nhiều multicollinearity. Một giá trị tolerance bằng 0.10 tương ứng với một sự tương quan bội 0.95. Đó là giá trị giới hạn mà chúng ta giữ lại mô hình  Để xác định các biến có liên quan, cần phải giữ lại các biến này của mô hình để chú ý đến việc thực hiện các phép biến đổi các biến 30 Coefficientsa 70015,462 5900,669 11,866 ,000 72,500 2,880 ,716 25,172 ,000 ,995 1,005 -1657,031 108,867 -,433 -15,221 ,000 ,995 1,005 (Constant) surface age Model 1 B Std. Error Unstandardized Coefficients Beta Standardi zed Coefficien ts t Sig. Tolerance VIF Collinearity Statis tics Dependent Variable: prixa. Kiểm tra multicollinearity (Tolerance) tiếp 31 Phép biến đổi các biến  Các điều kiện vận dụng mô hình thường xuyên không đạt được:  Tuyến tính  Phương sai không đổi của các sai số (errors) của mô hình  Một mô hình là tuyến tính nếu các tham số hiện diện trong mô hình là tuyến tính, ngay cả khi các biến độc lập không tuyến tính 32 Phép biến đổi các biến  Các ví dụ của các mô hình tuyến tính:  Ví dụ mô hình không tuyến tính: tiếp This image cannot currently be displayed. ebb= XY 10 ebbb= 2 210 XXY ebb= XlogY 10 ebb= XY 10 eb= b X 0 1 eY 33 Các phép biến đổi để làm cho mô hình tuyến tính  Hàm  Phép biến đổi  Dạng tuyến tính b = XY Xlog'X,Ylog'Y == 'Xlog'Y b= 34 Các phép biến đổi để làm cho mô hình tuyến tính  Hàm  Phép biến đổi  Dạng tuyến tính X eY b = Yln'Y = XY b = ln' tiếp 35 Các phép biến đổi để làm cho mô hình tuyến tính  Hàm  Phép biến đổi  Dạng tuyến tính XlogY b= Xlog'X = 'XY b= tiếp 36 Các phép biến đổi để làm cho mô hình tuyến tính  Hàm  Phép biến đổi  Dạng tuyến tính b = X X Y tiếp X 1 'X, Y 1 'Y == 'X'Y b= 37 Các phép biến đổi để làm cho mô hình tuyến tính  Hàm  Phép biến đổi  Dạng tuyến tính X X e1 e Y b b  = tiếp Y1 Y ln'Y  = X'Y b= 38 Diễn giải các hệ số  Nếu biến phụ thuộc là một biến logarithm  Hệ số của biến độc lập Xk có thể được hiểu là : sự biến đổi một đơn vị của Xk dẫn đến 100(bk)% thay đổi của số trung bình (mean) của Y  Nếu biến độc lập là một số logarithm  Hệ số của biến độc lập Xk có thể được hiểu là: sự biến đổi 100% dẫn đến một sự thay đổi bk đơn vị của số trung bình của Y 39 Diễn giải các hệ số  Nếu biến phụ thuộc và biến độc lập là các số logarithms  Hệ số của biến độc lập Xk có thể được hiểu là : 1% biến đổi Xk dẫn đến một phần trăm biến đổi trung bình của Y của bk. bk là tính đàn hồi (elasticity) của Y so với Xk. tiếp 40 Phép biến đổi để làm ổn định phương sai  Nói chung, sự ổn định của phương sai làm chuẩn hóa sự phân phối của biến  Khi phương sai của các phần dư (residues) của mô hình tăng lên với giá trị của một biến độc lập, một phép biến đổi có thể là chia tất cả mô hình ban đầu cho X:  Điều này là tương đương với việc áp dụng phương pháp bình phương bé nhất (WLS) X ',',', X 1 'X, X Y 'Y 0110 e =eb=bb=b== 41 Phép biến đổi để làm ổn định phương sai  Khi biến phụ thuộc có một độ lệch chuẩn so với trung bình của nó là lớn (hệ số biến thiên, tình trạng hiện hành đối với các biến kinh tế), một phép biến đổi logarithmic nói chung cho phép:  Giảm đi heteroscedasticity (giảm đi sự không đồng nhất phương sai của các sai số của mô hình)  Chuẩn hóa biến tiếp 42 Những quan sát lệch lạc (outliers)  Ba dạng:  Các điểm bẫy (leverage values)  Được đánh dấu bằng các giá trị của ma trận mũ (hat values)  Những quan sát ảnh hưởng (influential)  Sự hủy bỏ của các quan sát này nói chung làm thay đổi quan trọng ước lượng các tham số của mô hình  Được đánh dấu bằng các khoảng cách Cook  Những quan sát lệch lạc (outliers):  Những quan sát mà đối với nó, biến phụ thuộc có một giá trị “không bình thường” (anormal) so với các giá trị của các biến độc lập  Những quan sát có giá trị lớn hơn hai hoặc ba lần độ lệch chuẩn của đường trung tâm trong đồ thị phần dư (residues)  Được đánh dấu bằng các “studentized deleted residuals” 43 Các yếu tố của ma trận mũ “hat matrix” hi  Mỗi giá trị có thể được biểu thị theo các yi  hiji chỉ ra trong chừng mực nào Yi có thể ảnh hưởng đến  Nếu hij là lớn, quan sát thứ i ème có thể có một ảnh hưởng quan trọng đến giá trị được điều chỉnh thứ jème  Chúng ta có thể chứng tỏ rằng  hj=hjj tóm lược ảnh hưởng tiềm tàng của yi đến tất cả các giá trị được điều chỉnh nnjiij2j21j1j Yh...Yh...YhYhYˆ = = j 2 ijii hh jYˆ jYˆ 44 Các yếu tố của ma trận mũ “hat matrix” hi  Các giá trị nằm giữa 0 và 1 và giá trị trung bình bằng (k+1)/n  Nếu p lớn hơn hoặc bằng 10 và n lớn hơn hoặc bằng 50, quan sát được xem là một điểm bẫy nếu nó lớn hơn 2(k+1)/n  Nếu không, quan sát được xem như là một điểm bẫy nếu nó lớn hơn 3(k+1)/n (với ví dụ: 9/319=0,028)  Một điểm bẫy là một giá trị sai lệch trong khoảng không (trên đồ thị) của các biến độc lập. tiếp 45 Studentized Deleted Residuals ti *   : Chênh lệch giữa Yi và dựa trên mô hình chứa đựng tất cả các quan, trừ i  : dạng lỗi đối với mô hình chứa đựng tất cả các quan sát, trừ i  Một quan sát được xem như lệch lạc nếu   là giá trị phê phán đối với kiểm định hai bên ở mức rủi ro 5% (gần bằng 2)     * 1 i i ii e t S h =  ˆ iY  iS  ie kni tt  * 2pnt  46 Distance de Cook Di   Với sai số (residue) studentisé  Đo lường chênh lệch giữa các hệ số đạt được từ tất cả các số liệu và các hệ số đạt được bằng việc rút ra quan sát thứ i  Nếu Di>4/(n-k), quan sát được xem như có ảnh hưởng (trong ví dụ, 4/316=0,013)   2 2 1 i i i i SR h D h =  1 i i YX i e SR S h =  47 Những quan sát sai lệch (outliers)  Phải làm gì với các giá trị sai lệch ?  Rút ra khỏi mẫu, với điều kiện có thể chứng minh được. tiếp 48 Những quan sát sai lệch (outliers) tiếp 49 Những quan sát sai lệch (outliers) tiếp Residuals Statisticsa $51,357.88 $342,617.34 $178,465.20 $54,633.110 319 -2,327 3,005 ,000 1,000 319 $1,823.688 $7,224.813 $2,970.231 $904.991 319 $50,831.93 $341,766.78 $178,444.29 $54,677.261 319 -$117,631.58 $112,486.70 $.00 $31,913.487 319 -3,674 3,514 ,000 ,997 319 -3,685 3,540 ,000 1,002 319 -$118,308.41 $114,174.00 $20.91 $32,252.760 319 -3,761 3,607 ,000 1,008 319 ,035 15,199 1,994 2,095 319 ,000 ,189 ,004 ,012 319 ,000 ,048 ,006 ,007 319 Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value Minimum Maximum Mean Std. Deviation N Dependent Variable: prixa. 50 Những quan sát sai lệch (outliers) tiếp 51 Casewise Diagnostics a 3,166 $195,250 $93,887.19 $101,362.81 2,095 $260,650 $193577.3 $67,072.66 -3,282 $170,200 $275273.7 -$105,073.66 3,514 $278,000 $165513.3 $112,486.70 2,935 $331,000 $237035.5 $93,964.50 -2,670 $58,500 $143966.3 -$85,466.34 -2,647 $90,250 $174996.4 -$84,746.37 -2,640 $70,600 $155110.4 -$84,510.41 -2,650 $65,950 $150802.3 -$84,852.29 -2,374 $102,150 $178147.7 -$75,997.67 -2,473 $96,400 $175556.2 -$79,156.23 -3,674 $106,250 $223881.6 -$117,631.58 -2,363 $126,100 $201761.0 -$75,660.96 -2,691 $130,100 $216263.4 -$86,163.36 -3,184 $123,900 $225828.6 -$101,928.61 Case Number 5 171 213 246 247 260 288 290 291 299 306 307 308 315 316 Std. Residual prix Predicted Value Residual Dependent Variable: prixa. Những quan sát sai lệch (outliers) tiếp Đánh giá kỹ hơn đưa ra những quan sát 3,5, 96, 171, 213, 215, 240, 243, 246, 247, 260, 277, 288, 290, 291, 296, 299, 301, 306, 307, 315, et 316 như là các sai lệch tiềm tằng. 5 $195,250 2112 78 96 $138,250 129 1 315 $130,100 3000 43 52 Biến giả (dummy)  Các ví dụ: nam-nữ, có mặt – vắng mặt do một điều kiện cụ thể  Được mã hóa 0 hoặc 1  Về mặt lý thuyết, các hằng số (hệ số chặn) phải khác nhau  Giả sử rằng, có cùng hệ số hồi qui với mỗi một loại  Số các biến giả cần thiết là số loại trừ (-) 1 Nói chung được sử dụng đế thiết lập một nhân tố kiểm soát 530 1 1 2 0 1 1 ˆ (0)i i iY b b X b b b X=   =  0 1 1 2 0 2 1 1 ˆ (1) ( )i i iY b b X b b b bX=   =   Biến giả (dummy) Y = tiền lương X1 = Số năm kinh nghiệm X2 = Giới tính = Nam (X2 = 1) Nữ (X2 = 0) 0 nữ 1 nam 0 1 1 2 2 ˆ i i iY b b X b X=   Cùng hệ số hồi qui tiếp 54 Biến giả (dummy) tiếp X1 (giới tính) Y (tiền lương) b0 + b2 b0 Cùng hệ số gốc Hệ số chặn (hằng số) khác nhau 1b 55 Diễn giải hệ số của biến giả Ví dụ: Y: tiền lương năm tính bằng triệu đô la Trung bình, nam thu nhập năm trên 6000$, các điều kiện khác không đổi 1X : kinh nghiệm 2X 0 nữ 1 nam : 0 1 1 2 2 1 2 ˆ 20 5 6i i i i iY b b X b X X X=   =   56 Ví dụ về hồi qui bội  1 Hàng xóm dể chịu  0 hàng xóm khó chịu Chúng ta đưa thêm vào một biến thứ ba trong mô hình trước: hàng xóm tiếp 57 Ví dụ về hồi qui bội tiếp Model 1 Model 2 Coefficientsa 70015,462 5900,669 11,866 ,000 72,500 2,880 ,716 25,172 ,000 ,995 1,005 -1657,031 108,867 -,433 -15,221 ,000 ,995 1,005 (Constant) surface age Model 1 B Std. Error Unstandardized Coeff icients Beta Standardized Coeff icients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. Coefficientsa 33506,107 6682,137 5,014 ,000 64,409 2,733 ,636 23,570 ,000 ,885 1,130 -1114,692 114,857 -,291 -9,705 ,000 ,716 1,397 50673,109 5682,565 ,282 8,917 ,000 ,646 1,548 (Constant) surface age voisinage Model 1 B Std. Error Unstandardized Coeff icients Beta Standardized Coeff icients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. 58 Ví dụ về hồi qui bội tiếp Model 1 Model 2 Model Summaryb ,863a ,746 ,744 $32,014.319 1,344 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), age, surfacea. Dependent Variable: prixb. Model Summaryb ,893a ,797 ,795 $28,651.959 1,438 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), voisinage, surface, agea. Dependent Variable: prixb. 59 Những tác dụng của mã hóa (Effects coding)  Sự mã hóa riêng biệt các biến giả cốt là thay thế các dòng lấy giá trị 0 đối với tất cả các biến giả liên quan đến một biến cụ thể bằng một giá trị -1.  Những hệ số của biến giả được hiểu là phần chênh lệch so với trung bình và không so với loại chênh lệch 60 Effects coding tiếp 61 Effects coding Model 2 Model Summaryb ,893a ,797 ,795 $28,651.959 1,438 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), voisinage, surface, agea. Dependent Variable: prixb. Model Summaryb ,893a ,797 ,795 $28,651.959 1,438 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), voisinage, surface, agea. Dependent Variable: prixb. Model 3 tiếp 62 Effects coding Coefficientsa 33506,107 6682,137 5,014 ,000 64,409 2,733 ,636 23,570 ,000 ,885 1,130 -1114,692 114,857 -,291 -9,705 ,000 ,716 1,397 50673,109 5682,565 ,282 8,917 ,000 ,646 1,548 (Constant) surface age voisinage Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. Coefficientsa 58842,661 5427,539 10,841 ,000 64,409 2,733 ,636 23,570 ,000 ,885 1,130 -1114,692 114,857 -,291 -9,705 ,000 ,716 1,397 25336,554 2841,282 ,282 8,917 ,000 ,646 1,548 (Constant) surface age voisinage Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa. Model 2 Model 3 tiếp 63 Lựa chọn các biến trong việc xây dựng các mô hình  1. Qui tắc (nguyên tắc dè xẻn): sử dụng ít các biến độc lập khi có thể.  2. Hồi qui theo bước (stepwise)  lựa chọn các biến độc lập có liên quan chặt chẽ nhất với biến phụ thuộc. Thêm hoặc bỏ các biến tuỳ theo mức độ giải thích mà chúng đem lại. 64 Đóng góp của một biến độc lập  cho Xk là biến độc lập của mô hình mà ta muốn đo sự đóng góp của nó  RSS(Xk| X1 , …, Xk-1 , Xk+1 , …, Xp) =RSS(X1 , …, Xp)-RSS(X1 , …, Xk-1 , Xk+1 , …, Xp)  Đo sự đóng góp của Xk trong tổng biến đổi được giải thích của Y (TSS) kX 65 Sự đóng góp của một biến độc lập kX Đo được sự đóng góp của X1 trong việc giải thích TSS Từ l’ANOVA của hồi qui Từ l’ANOVA của hồi qui tiếp RSS(X1| X2 , X3)= RSS(X2, X3, X4) RSS(X3 , X4)- iiii xxxy 4433221 ˆˆˆˆˆ bbbb = ii xy 221 ˆˆˆ bb = 66 Hệ số xác định thành phần của   Đo lường phần của biến phụ thuộc (Y) được giải thích bởi Xk, khi các biến khác vẫn giữ nguyên không đổi (được kiểm soát) kX ),...,,,...,|(),...,( ),...,,,...,|( 1111 1112 ,...1,1,...,1. pkkkp pkkk pkkYk XXXXXRSSXXRSSTSS XXXXXRSS r     = 67 Hệ số xác định thành phần của  Ví dụ cho một mô hình có hai biến độc lập kX )|(),( )|( 2121 212 2.1 XXRSSXXRSSTSS XXRSS rY  = tiếp 68 Đóng góp của một tập con các biến độc lập  Cho Xs là một tập con của các biến độc lập của mô hình trong đó ta muốn đo sự đóng góp của nó  RSS(Xs| tất cả các biến trừ Xs) =RSS(X1 , …, Xp)-RSS(tất cả các biến trừ Xs)  Đo sự đóng góp của tập con Xs trong tổng biến đổi được giải thích của Y (TSS) 69 Đóng góp của một tập con các biến độc lập iiii xxxy 4433221 ˆˆˆˆˆ bbbb = giả sử rằng Xs gồm X2 và X4 Từ l’ANOVA của hồi qui Từ l’ANOVA của hồi qui tiếp RSS(X1, X3| X2 )= RSS(X3)-RSS(X2, X3 , X4) ii xy 221 ˆˆˆ bb = 70 Kiểm định một phần của mô hình  Xem xét sự đóng góp của một tập con Xs các biến trong mối liên hệ của chúng với Y  Giả thuyết H0:  Các biến của tập con không cải thiện một cách có ý nghĩa mô hình khi tất cả các biến khác bao gồm trong mô hình  Giả thiết đối (H1):  Ít nhất có một biến có nghĩa  Cần phải so sánh hai hàm hồi qui  Một hàm hồi qui bao gồm tất cả các biến.  Hàm còn lại bao gồm tất cả các biến trừ các phần được kiểm định 71 Kiểm định thành phần F đối với sự đóng góp của một tập con các biến  Thống kê kiểm định:  bậc tự do = m và (n-k-1)  m = số các biến trong tập con Xs )( /)|( variables les toutes s Xexepté variables les toutes ESM mXRSS F s = 72 Kiểm định thành phần F đối với sự đóng góp của một biến  Các giả thuyết:  H0 : biến Xj không cải thiện một cách có ý nghĩa mô hình khi tất cả các biến khác bao gồm trong mô hình  H1 : biến Xj cải thiện một cách có ý nghĩa mô hình khi các biến khác bao gồm trong mô hình  Thống kê kiểm định :   bậc tự do = 1 và (n-k-1)  m = 1 jX )( /)|( cácbienESM mcácbientruXRSS F j j X = 73 Phương pháp STEPWISE  Bước 1 Ta thử tất cả các mô hình hồi qui đơn. Ta giữ lại biến mà t quan là lớn nhất.  Bước 2  Tiếp theo, ta tìm biến tốt nhất trong số tất cả các biến còn lại. Đưa biến có liên quan từng phần lớn nhất với biến phụ thuộc vào mô hình, có chú ý đến các biến đã được đưa vào mô hình trước đó.  Kiểm tra xem các biến đã được đưa vào mô hình vẫn còn có ý nghĩa hay không. Nếu đúng ta chuyển sang bước 3, nếu không, phải rút các biến không còn ý nghĩa nữa ra khỏi mô hình. Bước 3 Nếu còn các biến có liên quan thành phần một cách có ý nghĩa, ta quay lại bước 2, nếu không ta dừng thuật toán này lại. 74 Phương pháp STEPWISE  Quay lại ví dụ của doanh nghiệp Hatco  Các biến độc lập:  X1 : tốc độ giao hàng– thời gian để giao một sản phẩm khi đơn đặt hàng đã được khẳng định.  X2 : mức giá– sự cảm nhận về mức giá của khách hàng  X3 : tính linh hoạt của giá–sự cảm nhận về thiện chí mà các nhân viên giao dịch của HATCO chấp nhận đàm phán giá.  X4 : hình ảnh – hình ảnh của HATCO trong mắt các khách hàng dưới góc độ là nhà cung cấp  X5 : dịch vụ -chất lượng chung của dịch vụ  X6 : năng lực bán hàng-cảm nhận về năng lực bán hàng của HATCO  X7 : chất lượng sản phẩm  Đại lượng phụ thuộc :  X9 : tỉ trọng của nhà cung cấp –phần trăm các sản phẩm cung cấp bởi HATCO so với các nhà cung cấp khác. tiếp 75 Phương pháp STEPWISE  Mô hình đầy đủ tiếp Model Summaryb ,880a ,775 ,758 4,4237 1,897 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), qualite du produit, service, force de vente, flexibilite du prix, niveau de prix, image, vitesse de livraison a. Dependent Variable: importanceb. Coefficie ntsa -10,187 4,977 -2,047 ,044 -,058 2,013 -,008 -,029 ,977 ,028 35,747 -,697 2,090 -,093 -,333 ,740 ,032 31,597 3,368 ,411 ,520 8,191 ,000 ,608 1,645 -,042 ,667 -,005 -,063 ,950 ,347 2,879 8,369 3,918 ,699 2,136 ,035 ,023 43,834 1,281 ,947 ,110 1,352 ,180 ,371 2,697 ,567 ,355 ,100 1,595 ,114 ,623 1,606 (Constant) vitesse de livraison niveau de prix f lexibilite du prix image service force de vente qualite du produit Model 1 B Std. Error Unstandardized Coef f icients Beta Standardized Coef f icients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: importancea. 76 Phương pháp STEPWISE tiếp 77 Phương pháp STEPWISE  Phương pháp stepwise tiếp Model Summary d ,701a ,491 ,486 6,4458 ,869b ,755 ,750 4,4980 ,877c ,768 ,761 4,3938 1,910 Model 1 2 3 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), dịch vụa. Predictors: (Constant) dịch vụ, linh hoạt của giáb. Predictors: (Constant), service, f lexibilite du prix, force de ventec. Dependent Variable: importanced. Coefficientsa 21,653 2,596 8,341 ,000 8,384 ,862 ,701 9,722 ,000 1,000 1,000 -3,489 3,057 -1,141 ,257 7,974 ,603 ,666 13,221 ,000 ,996 1,004 3,336 ,327 ,515 10,210 ,000 ,996 1,004 -6,520 3,247 -2,008 ,047 7,621 ,607 ,637 12,547 ,000 ,936 1,068 3,376 ,320 ,521 10,562 ,000 ,993 1,007 1,406 ,591 ,121 2,378 ,019 ,939 1,064 (Constant) dịch v ụ (Constant) dịch v ụ Linh hoạt của giá (Constant) dịch v ụ Linh hoạt của giá Lực lượng bán hàng Model 1 2 3 B Std. Error Unstandardized Coef f icients Beta Standardized Coef f icients t Sig. Tolerance VIF Collinearity Stat istics Dependent Variable: importancea. 78 Phương pháp STEPWISE tiếp Excluded Variablesd ,396a 4,812 ,000 ,439 ,626 1,599 ,626 -,377a -5,007 ,000 -,453 ,737 1,357 ,737 ,515a 10,210 ,000 ,720 ,996 1,004 ,996 ,016a ,216 ,830 ,022 ,911 1,098 ,911 ,093a 1,252 ,214 ,126 ,942 1,062 ,942 -,154a -2,178 ,032 -,216 ,997 1,003 ,997 ,016b ,205 ,838 ,021 ,405 2,469 ,405 -,020b -,267 ,790 -,027 ,464 2,156 ,464 ,095b 1,808 ,074 ,181 ,892 1,121 ,892 ,121b 2,378 ,019 ,236 ,939 1,064 ,936 ,094b 1,683 ,096 ,169 ,799 1,252 ,797 ,030c ,389 ,698 ,040 ,403 2,483 ,403 -,029c -,405 ,687 -,041 ,462 2,163 ,462 -,002c -,021 ,983 -,002 ,357 2,805 ,357 ,071c 1,273 ,206 ,130 ,768 1,301 ,768 vitesse de l ivraison niveau de prix flexibi lite du prix image force de vente qualite du produit vitesse de l ivraison niveau de prix image force de vente qualite du produit vitesse de l ivraison niveau de prix image qualite du produit Model 1 2 3 Beta In t Sig. Partial Correlation Tolerance VIF Minimum Tolerance Coll inearity Statistics Predictors in the Model: (Constant), servicea. Predictors in the Model: (Constant), service, flexibi lite du prixb. Predictors in the Model: (Constant), service, flexibi lite du prix, force de ventec. Dependent Variable: importanced. 79 Mô hình hồi qui với sự tương tác (interaction)  Cho phép kiểm định sự tương tác giữa các cặp biến độc lập  Câu trả lời cho một biến độc lập tùy theo các mức chênh lệch của một biến độc lập khác iiiiii xxxxy ebbbb = 32433221 80 Hiệu lực của sự tương tác  Chúng ta xem mô hình:   Không có yếu tố tương tác, hiệu lực của biến X2 đối với biến Y được đo lường bởi b2  Khi có một yếu tố tương tác, hiệu lực của biến X2 đối với biến Y được đo lường bởi b3 + b4 X3  Hiệu lực thay đổi khi X3 tăng lên iiiiii xxxxy ebbbb = 32433221 81 Y = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1 Y = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1 Ví dụ về sự tương tác Hiệu lực (độ dốc) của X1 đối với Y phụ thuộc vào giá trị của X2 X1 4 8 12 0 0 10.5 1.5 Y Y = 1 + 2X1 + 3X2 + 4X1X2 ikikiii xxxy ebbbb = ˆ...ˆˆˆ 33221 82 Ví dụ về sự tương tác tiếp Trở lại ví dụ trước Chúng ta muốn kiểm định một sự tương tác có thể xãy ra giữa diện tích và tuổi của ngôi nhà Chúng ta tạo ra một biến bằng tích giữa hai biến này 83 Ví dụ về sự tương tác tiếp Model Summaryb ,899a ,808 ,807 $27,820.472 1,506 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Durbin-W atson Predictors: (Constant), voisinage, SUR_AGE, surfacea. Dependent Variable: prixb. Coefficientsa 15385,686 5653,136 2,722 ,007 70,910 2,779 ,700 25,520 ,000 ,807 1,239 -,618 ,057 -,299 -10,909 ,000 ,812 1,232 57677,118 5103,801 ,321 11,301 ,000 ,755 1,325 (Constant) surface SUR_AGE voisinage Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Tolerance VIF Collinearity Statistics Dependent Variable: prixa.

Các file đính kèm theo tài liệu này:

  • pdfchap5_moi_ktl_764.pdf