Hồi qui logistic

Cho X là một biến phân phối với tham số  Cho X1, X2, , Xnlà một số quan sát để từ đó ta tìm cách xác định  Phươngphápcực đạihợplý coigiátrị nàycủa  phảilà giátrịlàm cựcđạixácsuấtđạtđượccácgiá trịquansáttrênX. Qui trình: Xácđịnhhàmcủa,FV(),đượcgọilà hàmhợplý, nócho phépmôtảxácsuấtđạtđượccácgiátrịquansátcủaX Cực đại hóa hàm này đối với 

39 trang | Chia sẻ: tlsuongmuoi | Lượt xem: 2837 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Hồi qui logistic, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1Hồi qui logistic 2Các nội dung chính Hồi qui của một biến lưỡng phân Tỷ lệ (odds) Mô hình logistic Ước lượng của mô hình Tỷ số tỉ lệ Odds ratio 3Hồi qui của một biến lưỡng phân  Xem xét mối liên hệ : Thành công hoặc thất bại của một doanh nghiệp mới (y) với các đặc điểm của chủ doanh nghiệp : Tuổi (x1) Năm kinh nghiệm (x2) Học vấn (x3) 4Thiết lập mô hình thứ nhất Mã hoá của y:  y=1 nếu thành công  y=0 nếu thất bại Mô hình tuyến tính nói chung có dạng: Ý nghĩa : E(y)=P(y=1)=  bbbb 3322110 xxxy 5Các vấn đề Vấn đề 1: Yêu cầu về phân phối chuẩn của các số sai số của mô hình (error) không được tôn trọng. Vấn đề 2: Giả thiết về không có tự tương quan và phương sai không giống nhau của các sai số của mô hình (homoscédasticité) không được tôn trọng. Vấn đề 3: y thể hiện một trị xác suất có giá trị từ 0 đến 1. Hàm hồi qui không thể đảm bảo điều đó. 6Lựa chọn khác : phân tích tách biệt (discriminant) X1 X2 Z=a1X1 + a2X2 7Tỉ lệ (Odds)  Tỷ tỉ lệ giữa xác suất quan sát một sự kiện trên xác suất không quan sát nó  Ví dụ: Nếu xác suất thành công của doanh nghiệp mới là 0,8, thì:  Cơ hội để doanh nghiệp thành công gấp 4 lần so với thất bại )E(P1 )E(P oddsE   4 2,0 8,0 )S(P1 )S(P oddss    8Hàm lũy tích x1 1 0 F(x1)=P(X<x1) X 1 0 f(X) 9Hồi qui logistic Thiết lập phương trình Giải pháp là tìm ra mối liên hệ giữa y với x1, x2 và x3, mối liên hệ bảo đảm rằng y sẽ nằm trong khoảng giữa 0 và 1.  Chúng ta thiết lập mô hình logarít của tỉ lệ (odds) : 3322110 xxx 1 ln bbbb           332210 1 3322110 xxxexp1 xxxexp )1y(P)y(E bbbb bbbb    10 Mô hình logistic              x x yPyE bb bb 10 10 exp1 exp )1()( x 1 0 E(y) Xác suất, tỉ lệ (odds), logarít là 3 dạng khác nhau của cùng một thứ 11 Mô hình logistic 0 x 1 E(y) tiếp x 1 E(y) 0 12 Hồi qui logistic Giả sử rằng ta có một biến phụ thuộc y có các giá trị là 0 và 1 mà ta cần giải thích bằng 3 biến độc lập liên tục x1, x2 và x3.  Có một biến ngầm (cơ bản) y* không thể quan sát được như sau đây :  y=1 với y*>0  y=0 nếu y*<=0 bbbb 3322110 xxx*y tiếp 13 Hồi qui logistic )()1( )(1)1( )()1( )0()1( 3322110 3322110 3322110 3322110 xxxFyP xxxFyP xxxPyP xxxPyP bbbb bbbb bbbb bbbb     tiếp Vậy, vấn đề trở thành việc xác định dạng của F 14 Hồi qui logistic tiếp  Trong số các dạng có thể, có :  Hàm logistic (Mô hình logit)  Hàm tích lũy của luật phân phối chuẩn (mô hình probit)    332210 1 3322110 xxxexp1 xxxexp )1y(P bbbb bbbb      3322110 )1( xxxyP bbbb  3322110 )1(1 )1( ln xxx YP YP bbbb         15 Cực đại hàm hợp lý Cho X là một biến phân phối với tham số  Cho X1, X2, …, Xn là một số quan sát để từ đó ta tìm cách xác định   Phương pháp cực đại hợp lý coi giá trị này của  phải là giá trị làm cực đại xác suất đạt được các giá trị quan sát trên X. Qui trình:  Xác định hàm của , FV(), được gọi là hàm hợp lý, nó cho phép mô tả xác suất đạt được các giá trị quan sát của X  Cực đại hóa hàm này đối với  16 Cực đại hàm hợp lý  FV()=f(X1;)xf(X2;)x…xf(Xn;)  Nếu X là một biến rời rạc, FV() là tích các xác suất  Nếu X là một biến liên tục, FV() là tích các hàm mật độ xác suất Cực đại hóa FV() hoặc hàm hợp lý  FV() đạt cực đại với giá trị của  khi giá trị này bỏ đạo hàm bậc nhất tiếp 0 )(     FV 17 Cực đại hàm hợp lý Nhìn chung, việc thực hiện một phép biến đổi logarít của FV() khi nó có dạng là một tổng hàm của  sẽ tiện lợi hơn khi FV() là một tích. Vậy ta chỉ tính toán trên L()=logFV() mà người ta gọi là hàm logarit hợp lý  L() và FV() đạt cực đại với cùng giá trị  Vậy ta sẽ giải như sau: tiếp 0 )(     L 18 Cực đại hàm hợp lý Ví dụ về qui luật chuẩn Cho X là một biến phân phối chuẩn với các tham số  et 2  Ta có một mẫu với n quan sát X1, X2, …, Xn Hàm mật độ của một biến X phân phối chuẩn là: tiếp 2 2 )( 2 1 . 2 1 )(      X eXf 19 Cực đại hàm hợp lý Đối với một giá cụ thể của Xi Hàm hợp lý tiếp 2 2 )( 2 1 . 2 1 )(      iX i eXf             n i iX n n i i eXfFV 1 2 2 )( 2 1 1 2 . 2 1 )(),(     20 Cực đại hàm hợp lý Hàm logarit hợp lý  Lấy đạo hàm tiếp           n i i n i i XnXfL 1 2 21 2 )( 2 1 2 1 log)(log),(               n i i n i i n i i X nnL XXf L 1 2 422 2 1 21 2 0)( 22 ),( 0)( 1 )(log ),(       21 Cực đại hàm hợp lý Đánh giá cực đại của hàm hợp lý tiếp       n i i n i i XX n XX n 1 22 1 )( 1 ˆ 1 ˆ   22 Ví dụ  Trong 700 người vay tiền ngân hàng, ta có thông tin sau : Người (y) khó khăn khi hoàn trả (1) hoặc không khó khăn (0) Số năm làm việc với cùng một ông chủ (employ) Tỷ số nợ so với thu nhập (nợ). 23 Ví dụ tiếp 24 Ví dụ tiếp 25 Ước lượng tổng quát của mô hình Việc tính các hệ số được làm với sự trợ giúp của phép logarit lặp lại nhiều lần dựa trên phương pháp cực đại hàm hợp lý Ứơc lượng tổng quát được làm với sự trợ giúp của c2 (bậc tự do=số các biến độc lập)  c2 này kiểm định giả thiết không : H0: b1=b2=0 Mô hình này có ý nghiã về mặt tổng quát Omnibus Tests of Model Coefficients 173,282 2 ,000 173,282 2 ,000 173,282 2 ,000 Step Block Model Step 1 Chi-square df Sig. 26 Ước lượng tổng quát của mô hình R2 của Nagelkerke (tương tự như hệ số xác định) Khi le –2 LL (log likelihood) càng nhỏ, thì mô hình càng tốt tiếp Model Summary 631,083a ,219 ,321 Step 1 -2 Log likelihood Cox & Snell R Square Nagelkerke R Square Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001. a. 27 Lợi ích của mô hình Mô hình là thú vị khi nó có một sự giải thích đối với cách phân loại ngẫu nhiên đơn giản. Classification Tablea 481 36 93,0 110 73 39,9 79,1 Observed Non Oui difficulté à rembourser Overall Percentage Step 1 Non Oui difficulté à rembourser Percentage Correct Predicted The cut value is ,500a. 28 Lợi ích của mô hình tiếp  Một điều chỉnh tốt giữa các giá trị dự đoán và các giá trị thực tế được chỉ ra ra bởi một hệ số c2 không có nghĩa. Hosmer and Lemeshow Test 4,158 8 ,843 Step 1 Chi-square df Sig. 29 Các tiêu chí khác của việc so sánh  Tiêu chí cực đại các cơ hội  cốt là để xem rằng chúng ta dùng tất cả các quan sát cho lớp có kích thước lớn nhất  như vậy, trong ví dụ về lớp « không khó khăn »; phần trăm các quan sát được phân lớp rõ ràng sẽ là : (517/700)x100=73.93%  Tiêu chí sử dụng ngẫu nhiên  cốt là xem rằng chúng ta sử dụng tất cả các quan sát một cách ngẫu nhiên  như vậy, phần trăm các quan sát được sắp xếp rõ ràng sẽ là: (517/700)2+(183/700)2=0.04 soit 4% 30 Ý nghĩa của tiêu chí cực đại các cơ hội  Ta sử dụng một kiểm định tỉ lệ (một phía bên phải): n=kích thước mẫu p=tỉ lệ các quan sát được phân lớp rõ ràng p0=tỉ lệ các quan sát được phân lớp rõ ràng theo tiêu chí cực đại các cơ hội Các dự đoán có ý nghĩa tốt nhất khi sử dụng ở nhóm có kích thước lớn hơn (giá trị tới hạn của z với mức 1%=2.05)   n p1p pp z 00 0      3.13 700 0.73910.739 0.7390.791   z 31 Q de Press  Cho phép kiểm định mức ý nghĩa của việc sử dụng ngẫu nhiên N=kích thước mẫu n= số các quan sát được phân lớp rõ ràng k=số các nhóm  Theo một c2 với 1 bậc tự do Các dự đoán chỉ có ý nghĩa tốt hơn với phân lớp ngẫu nhiên đơn (giá trị tới hạn của c2 với mức 1% cho 1 bậc TD=6.63)     1kN k*nN Press de Q 2         237.81 12700 2*554700 2    Press de Q 32 Ý nghĩa của các hệ số  Kiểm định mức ý nghĩa của các hệ số được thực hiện dựa vào phép tính c2 cụ thể với 1 bậc tự do, c2 của Wald  c2 này kiểm định giả thiết không : H0: bi=0 cho mỗi hệ số  Cả hai hệ số này có ý nghĩa Variables in the Equation -,141 ,019 53,755 1 ,000 ,868 ,145 ,016 87,231 1 ,000 1,156 -1,693 ,219 59,771 1 ,000 ,184 employ dette Constant Step 1 a B S.E. Wald df Sig. Exp(B) Variable(s) entered on step 1: employ, dette.a. 33 Diễn giải các hệ số  Đối loga (antilog) cuả hệ số bi ước lượng sự thay đổi trong tỉ lệ (odds) quan sát y=1 khi xi tăng lên 1 đơn vị, mọi thứ đều như nhau.  Thông thường, ta tính (ebi)-1, chỉ tiêu này chỉ ra phần trăm biến thiên trong tỉ lệ (odds). Các giá trị dương cho thấy một sự tăng lên trong tỉ lệ. Như vậy các giá trị âm cho thấy sự giảm đi  b1=-0.141 e b1=.868 (eb1)-1= -.132  Cứ mỗi năm làm việc với cùng một ông chủ tăng thêm, sẽ làm giảm tỉ lệ khó khăn hoàn trả nợ là 13.2%. Vậy có nhiều cơ hội hơn để người vay tiền hoàn trả nợ mà không gặp vấn đề gì.  b2=0.145 e b2=1.156 (eb2)-1=.156  Mức tăng 1% của chỉ số nợ làm tăng lên tỉ lệ khó khăn hoàn trả nợ là 15.6%. Vậy có nhiều cơ hội (khả năng) hơn để người vay tiền gặp khó khăn khi trả nợ. 34 Quay lại các bảng chéo  Giao nhau giữa loại công việc (nhà quản lý=1 nghề khác=0) và giới tính (nam giới=1 phụ nữ=0) EMPLOI * SEXE2 Crosstabulation Count 206 184 390 10 74 84 216 258 474 nghề khác (0) nhà quản lý (1) công việc Tổng phụ nữ (0) Nam giới (1) Giới tính2 Toal 35 Tỷ số tỉ lệ (Odds ratio)  Đối với nam giới, tỉ lệ làm quản lý là :  Đối với phụ nữ, tỉ lệ làm quản lý là :  Chỉ số tỉ lệ: 0.402/0.049=8.20 Vậy ta có cơ hội nhiều hơn gấp 8 lần để làm nhà quản lý nếu ta là nam giới. 402.0 258 741 258 74   049.0 216 101 216 10   36 Hồi qui logistic Omnibus Tests of Model Coefficients 52,640 1 ,000 52,640 1 ,000 52,640 1 ,000 Step Block Model Step 1 Chi-square df Sig. Model Summary 390,213 ,105 ,173 Step 1 -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 37 Hồi qui logistic tiếp Classification Tablea,b 390 0 100,0 84 0 ,0 82,3 Observed autre (0) manager (1) EMPLOI Overall Percentage Step 0 autre (0) manager (1) EMPLOI Percentage Correct Predicted Constant is included in the model.a. The cut value is ,500b. Variables in the Equation 2,114 ,352 36,112 1 ,000 8,285 -3,025 ,324 87,287 1 ,000 ,049 SEXE2 Constant Step 1 a B S.E. Wald df Sig. Exp(B) Variable(s) entered on step 1: SEXE2.a. 38 Các biến độc lập lưỡng phân  Đối loga (antiloga) của hệ số bi cho ta chỉ số tỉ lệ, có nghĩa là, có khả năng biến phụ thuộc nhận giá trị 1 nhiều hơn giá trị 0 nếu biến độc lập cũng nhận giá trị 1 so với trường hợp mà nó đáng lẽ nhận giá trị 0. 39 Phép biến đổi để mô hình là tuyến tính Hàm Phép biến đổi Dạng đường thẳng X X e1 e Y b b   suite Y1 Y ln'Y   X'Y b

Các file đính kèm theo tài liệu này:

chuong_5_hoi_quy_logistic_bien_phu_thuoc_9816.pdf