Cho X là một biến phân phối với tham số
Cho X1, X2, , Xnlà một số quan sát để từ đó ta
tìm cách xác định
Phươngphápcực đạihợplý coigiátrị nàycủa
phảilà giátrịlàm cựcđạixácsuấtđạtđượccácgiá
trịquansáttrênX.
Qui trình:
Xácđịnhhàmcủa,FV(),đượcgọilà hàmhợplý, nócho
phépmôtảxácsuấtđạtđượccácgiátrịquansátcủaX
Cực đại hóa hàm này đối với
39 trang |
Chia sẻ: tlsuongmuoi | Lượt xem: 2589 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Hồi qui logistic, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Hồi qui logistic
2Các nội dung chính
Hồi qui của một biến lưỡng phân
Tỷ lệ (odds)
Mô hình logistic
Ước lượng của mô hình
Tỷ số tỉ lệ Odds ratio
3Hồi qui của một biến lưỡng
phân
Xem xét mối liên hệ :
Thành công hoặc thất bại của một doanh
nghiệp mới (y)
với các đặc điểm của chủ doanh nghiệp :
Tuổi (x1)
Năm kinh nghiệm (x2)
Học vấn (x3)
4Thiết lập mô hình thứ nhất
Mã hoá của y:
y=1 nếu thành công
y=0 nếu thất bại
Mô hình tuyến tính nói chung có dạng:
Ý nghĩa :
E(y)=P(y=1)=
bbbb 3322110 xxxy
5Các vấn đề
Vấn đề 1: Yêu cầu về phân phối chuẩn của các số
sai số của mô hình (error) không được tôn trọng.
Vấn đề 2: Giả thiết về không có tự tương quan và
phương sai không giống nhau của các sai số của
mô hình (homoscédasticité) không được tôn trọng.
Vấn đề 3: y thể hiện một trị xác suất có giá trị từ 0
đến 1. Hàm hồi qui không thể đảm bảo điều đó.
6Lựa chọn khác : phân tích tách biệt
(discriminant)
X1
X2
Z=a1X1 + a2X2
7Tỉ lệ (Odds)
Tỷ tỉ lệ giữa xác suất quan sát một sự kiện trên
xác suất không quan sát nó
Ví dụ:
Nếu xác suất thành công của doanh nghiệp mới là
0,8, thì:
Cơ hội để doanh nghiệp thành công gấp 4 lần so
với thất bại
)E(P1
)E(P
oddsE
4
2,0
8,0
)S(P1
)S(P
oddss
8Hàm lũy tích
x1
1
0
F(x1)=P(X<x1)
X
1
0
f(X)
9Hồi qui logistic
Thiết lập phương trình
Giải pháp là tìm ra mối liên hệ giữa y với x1, x2 và x3, mối
liên hệ bảo đảm rằng y sẽ nằm trong khoảng giữa 0 và 1.
Chúng ta thiết lập mô hình logarít của tỉ lệ (odds) :
3322110 xxx
1
ln bbbb
332210 1
3322110
xxxexp1
xxxexp
)1y(P)y(E
bbbb
bbbb
10
Mô hình logistic
x
x
yPyE
bb
bb
10
10
exp1
exp
)1()(
x
1
0
E(y)
Xác suất, tỉ lệ (odds), logarít là 3 dạng khác nhau của
cùng một thứ
11
Mô hình logistic
0
x
1
E(y)
tiếp
x
1
E(y)
0
12
Hồi qui logistic
Giả sử rằng ta có một biến phụ thuộc y có các giá trị
là 0 và 1 mà ta cần giải thích bằng 3 biến độc lập liên
tục x1, x2 và x3.
Có một biến ngầm (cơ bản) y* không thể quan sát được
như sau đây :
y=1 với y*>0
y=0 nếu y*<=0
bbbb 3322110 xxx*y
tiếp
13
Hồi qui logistic
)()1(
)(1)1(
)()1(
)0()1(
3322110
3322110
3322110
3322110
xxxFyP
xxxFyP
xxxPyP
xxxPyP
bbbb
bbbb
bbbb
bbbb
tiếp
Vậy, vấn đề trở thành việc xác định dạng của F
14
Hồi qui logistic
tiếp
Trong số các dạng có thể, có :
Hàm logistic (Mô hình logit)
Hàm tích lũy của luật phân phối chuẩn (mô hình probit)
332210 1
3322110
xxxexp1
xxxexp
)1y(P
bbbb
bbbb
3322110
)1( xxxyP bbbb
3322110
)1(1
)1(
ln xxx
YP
YP
bbbb
15
Cực đại hàm hợp lý
Cho X là một biến phân phối với tham số
Cho X1, X2, …, Xn là một số quan sát để từ đó ta
tìm cách xác định
Phương pháp cực đại hợp lý coi giá trị này của
phải là giá trị làm cực đại xác suất đạt được các giá
trị quan sát trên X.
Qui trình:
Xác định hàm của , FV(), được gọi là hàm hợp lý, nó cho
phép mô tả xác suất đạt được các giá trị quan sát của X
Cực đại hóa hàm này đối với
16
Cực đại hàm hợp lý
FV()=f(X1;)xf(X2;)x…xf(Xn;)
Nếu X là một biến rời rạc, FV() là tích các xác suất
Nếu X là một biến liên tục, FV() là tích các hàm mật độ
xác suất
Cực đại hóa FV() hoặc hàm hợp lý
FV() đạt cực đại với giá trị của khi giá trị này bỏ đạo
hàm bậc nhất
tiếp
0
)(
FV
17
Cực đại hàm hợp lý
Nhìn chung, việc thực hiện một phép biến đổi
logarít của FV() khi nó có dạng là một tổng hàm
của sẽ tiện lợi hơn khi FV() là một tích.
Vậy ta chỉ tính toán trên L()=logFV() mà người
ta gọi là hàm logarit hợp lý
L() và FV() đạt cực đại với cùng giá trị
Vậy ta sẽ giải như sau:
tiếp
0
)(
L
18
Cực đại hàm hợp lý
Ví dụ về qui luật chuẩn
Cho X là một biến phân phối chuẩn với các tham số
et 2
Ta có một mẫu với n quan sát X1, X2, …, Xn
Hàm mật độ của một biến X phân phối chuẩn là:
tiếp
2
2
)(
2
1
.
2
1
)(
X
eXf
19
Cực đại hàm hợp lý
Đối với một giá cụ thể của Xi
Hàm hợp lý
tiếp
2
2
)(
2
1
.
2
1
)(
iX
i
eXf
n
i
iX
n
n
i
i
eXfFV 1
2
2
)(
2
1
1
2 .
2
1
)(),(
20
Cực đại hàm hợp lý
Hàm logarit hợp lý
Lấy đạo hàm
tiếp
n
i
i
n
i
i
XnXfL
1
2
21
2 )(
2
1
2
1
log)(log),(
n
i
i
n
i
i
n
i
i
X
nnL
XXf
L
1
2
422
2
1
21
2
0)(
22
),(
0)(
1
)(log
),(
21
Cực đại hàm hợp lý
Đánh giá cực đại của hàm hợp lý
tiếp
n
i
i
n
i
i
XX
n
XX
n
1
22
1
)(
1
ˆ
1
ˆ
22
Ví dụ
Trong 700 người vay tiền ngân hàng, ta có
thông tin sau :
Người (y) khó khăn khi hoàn trả (1) hoặc
không khó khăn (0)
Số năm làm việc với cùng một ông chủ
(employ)
Tỷ số nợ so với thu nhập (nợ).
23
Ví dụ
tiếp
24
Ví dụ
tiếp
25
Ước lượng tổng quát của mô
hình
Việc tính các hệ số được làm với sự trợ giúp của
phép logarit lặp lại nhiều lần dựa trên phương
pháp cực đại hàm hợp lý
Ứơc lượng tổng quát được làm với sự trợ giúp của
c2 (bậc tự do=số các biến độc lập)
c2 này kiểm định giả thiết không :
H0: b1=b2=0
Mô hình này có ý nghiã về mặt tổng quát
Omnibus Tests of Model Coefficients
173,282 2 ,000
173,282 2 ,000
173,282 2 ,000
Step
Block
Model
Step 1
Chi-square df Sig.
26
Ước lượng tổng quát của mô
hình
R2 của Nagelkerke (tương tự như hệ số xác định)
Khi le –2 LL (log likelihood) càng nhỏ, thì mô hình
càng tốt
tiếp
Model Summary
631,083a ,219 ,321
Step
1
-2 Log
likelihood
Cox & Snell
R Square
Nagelkerke
R Square
Estimation terminated at iteration number 5 because
parameter estimates changed by less than ,001.
a.
27
Lợi ích của mô hình
Mô hình là thú vị khi nó có một sự giải thích đối với
cách phân loại ngẫu nhiên đơn giản.
Classification Tablea
481 36 93,0
110 73 39,9
79,1
Observed
Non
Oui
difficulté à rembourser
Overall Percentage
Step 1
Non Oui
difficulté à rembourser Percentage
Correct
Predicted
The cut value is ,500a.
28
Lợi ích của mô hình
tiếp
Một điều chỉnh tốt giữa các giá trị dự đoán
và các giá trị thực tế được chỉ ra ra bởi một
hệ số c2 không có nghĩa.
Hosmer and Lemeshow Test
4,158 8 ,843
Step
1
Chi-square df Sig.
29
Các tiêu chí khác của việc so
sánh
Tiêu chí cực đại các cơ hội
cốt là để xem rằng chúng ta dùng tất cả các quan
sát cho lớp có kích thước lớn nhất
như vậy, trong ví dụ về lớp « không khó khăn »;
phần trăm các quan sát được phân lớp rõ ràng sẽ
là :
(517/700)x100=73.93%
Tiêu chí sử dụng ngẫu nhiên
cốt là xem rằng chúng ta sử dụng tất cả các quan
sát một cách ngẫu nhiên
như vậy, phần trăm các quan sát được sắp xếp rõ
ràng sẽ là:
(517/700)2+(183/700)2=0.04 soit 4%
30
Ý nghĩa của tiêu chí cực đại
các cơ hội
Ta sử dụng một kiểm định tỉ lệ (một phía bên phải):
n=kích thước mẫu
p=tỉ lệ các quan sát được phân lớp rõ ràng
p0=tỉ lệ các quan sát được phân lớp rõ ràng theo tiêu chí cực đại các cơ
hội
Các dự đoán có ý nghĩa tốt nhất khi sử dụng ở nhóm có
kích thước lớn hơn (giá trị tới hạn của z với mức 1%=2.05)
n
p1p
pp
z
00
0
3.13
700
0.73910.739
0.7390.791
z
31
Q de Press
Cho phép kiểm định mức ý nghĩa của việc sử dụng ngẫu
nhiên
N=kích thước mẫu
n= số các quan sát được phân lớp rõ ràng
k=số các nhóm
Theo một c2 với 1 bậc tự do
Các dự đoán chỉ có ý nghĩa tốt hơn với phân lớp ngẫu nhiên
đơn (giá trị tới hạn của c2 với mức 1% cho 1 bậc TD=6.63)
1kN
k*nN
Press de Q
2
237.81
12700
2*554700
2
Press de Q
32
Ý nghĩa của các hệ số
Kiểm định mức ý nghĩa của các hệ số được
thực hiện dựa vào phép tính c2 cụ thể với 1
bậc tự do, c2 của Wald
c2 này kiểm định giả thiết không :
H0: bi=0 cho mỗi hệ số
Cả hai hệ số này có ý nghĩa
Variables in the Equation
-,141 ,019 53,755 1 ,000 ,868
,145 ,016 87,231 1 ,000 1,156
-1,693 ,219 59,771 1 ,000 ,184
employ
dette
Constant
Step
1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: employ, dette.a.
33
Diễn giải các hệ số
Đối loga (antilog) cuả hệ số bi ước lượng sự thay đổi trong
tỉ lệ (odds) quan sát y=1 khi xi tăng lên 1 đơn vị, mọi thứ
đều như nhau.
Thông thường, ta tính (ebi)-1, chỉ tiêu này chỉ ra phần trăm
biến thiên trong tỉ lệ (odds). Các giá trị dương cho thấy
một sự tăng lên trong tỉ lệ. Như vậy các giá trị âm cho thấy
sự giảm đi
b1=-0.141 e
b1=.868 (eb1)-1= -.132
Cứ mỗi năm làm việc với cùng một ông chủ tăng thêm, sẽ
làm giảm tỉ lệ khó khăn hoàn trả nợ là 13.2%. Vậy có nhiều
cơ hội hơn để người vay tiền hoàn trả nợ mà không gặp vấn
đề gì.
b2=0.145 e
b2=1.156 (eb2)-1=.156
Mức tăng 1% của chỉ số nợ làm tăng lên tỉ lệ khó khăn hoàn
trả nợ là 15.6%. Vậy có nhiều cơ hội (khả năng) hơn để người
vay tiền gặp khó khăn khi trả nợ.
34
Quay lại các bảng chéo
Giao nhau giữa loại công việc (nhà quản lý=1 nghề khác=0)
và giới tính (nam giới=1 phụ nữ=0)
EMPLOI * SEXE2 Crosstabulation
Count
206 184 390
10 74 84
216 258 474
nghề khác (0)
nhà quản lý (1)
công việc
Tổng
phụ nữ (0) Nam giới (1)
Giới tính2
Toal
35
Tỷ số tỉ lệ (Odds ratio)
Đối với nam giới, tỉ lệ làm quản lý là :
Đối với phụ nữ, tỉ lệ làm quản lý là :
Chỉ số tỉ lệ:
0.402/0.049=8.20
Vậy ta có cơ hội nhiều hơn gấp 8 lần để làm nhà
quản lý nếu ta là nam giới.
402.0
258
741
258
74
049.0
216
101
216
10
36
Hồi qui logistic
Omnibus Tests of Model Coefficients
52,640 1 ,000
52,640 1 ,000
52,640 1 ,000
Step
Block
Model
Step 1
Chi-square df Sig.
Model Summary
390,213 ,105 ,173
Step
1
-2 Log
likelihood
Cox & Snell
R Square
Nagelkerke
R Square
37
Hồi qui logistic
tiếp
Classification Tablea,b
390 0 100,0
84 0 ,0
82,3
Observed
autre (0)
manager (1)
EMPLOI
Overall Percentage
Step 0
autre (0) manager (1)
EMPLOI Percentage
Correct
Predicted
Constant is included in the model.a.
The cut value is ,500b.
Variables in the Equation
2,114 ,352 36,112 1 ,000 8,285
-3,025 ,324 87,287 1 ,000 ,049
SEXE2
Constant
Step
1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: SEXE2.a.
38
Các biến độc lập lưỡng phân
Đối loga (antiloga) của hệ số bi cho ta chỉ số tỉ lệ, có nghĩa
là, có khả năng biến phụ thuộc nhận giá trị 1 nhiều hơn giá
trị 0 nếu biến độc lập cũng nhận giá trị 1 so với trường hợp
mà nó đáng lẽ nhận giá trị 0.
39
Phép biến đổi để mô hình là tuyến tính
Hàm
Phép biến đổi
Dạng đường thẳng
X
X
e1
e
Y
b
b
suite
Y1
Y
ln'Y
X'Y b
Các file đính kèm theo tài liệu này:
- chuong_5_hoi_quy_logistic_bien_phu_thuoc_9816.pdf