Các điều kiện về dạng mô hình :
Tuyến tính của các biến độc lập so với biến phụ
thuộc
Các điều kiện về sai số mô hình (error):
Cácsaisốmôhìnhlà độclập (khôngtự tương quan)
vàphânphốigiốngnhautheo phânphốichuẩnvới
trungbìnhbằng0vàvariances
2
(homoscédasticité)
Các điều kiện về các số dự đoán :
Các biến độc lập không ngẫu nhiên
Các giá trị của các biến độc lập được đo lường
không có sai số
Cácsốdựđoán(prédicteurs) là độclập theo đường
thẳng, (không cóbộitương quangiữacácbiếnđộc
lập -multicollinearity)
83 trang |
Chia sẻ: tlsuongmuoi | Lượt xem: 2503 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Kinh tế lượng - Hồi qui tuyến tính bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Hồi qui tuyến tính bội
2Các nội dung chính
Ôn lại mô hình hồi qui tuyến tính bội
Kiểm tra các điều kiện áp dụng mô
hình
Chỉnh sửa các vấn đề
Số liệu quan sát sai lệch
Các biến giả (dummy)
Phương pháp stepwise
Sự tương tác (Interaction)
3Y X X Xi i i k ki i= b b b b e1 2 2 3 3
Mô hình hồi qui bội
Mối liên hệ giữa một biến phụ thuộc với
ít nhất hai biến độc lập là một hàm tuyến
tính
Biến phụ
thuộc (đáp
số)
Các biến độc
lập
Các hệ số
hồi qui
của tổng
thể
Hệ số chặn
(hằng số)
Sai số
ngẫu
nhiên
4Mô hình hồi qui bội đối với tổng thể
Mô hình hai
biến
Đáp số
b0
Yi=b1+ b2X2i+ b3X3i + ei
Y
X1
X2
ei
E(Y)=b1+ b2X2+ b3X3
5Mô hình hồi qui bội đối với một
mẫu
Mô hình hai
biến
Y
Đáp số
X1
X2
b0 ei
Yi=b1+ b2X2i+ b3X3i + ei
6Ví dụ về hồi tuyến tính qui bội
Phát triển một mô hình để giải
thích về giá của một ngôi nhà
theo diện tích và tuổi của nó, lấy
từ một mẫu 319 ngôi nhà vừa bán
gần đây nhất.
7Ví dụ về hồi qui tuyến tính bộitiếp
8Ví dụ về hồi qui qui tuyến tính bộitiếp
Coefficients
a
70015,462 5900,669 11,866 ,000
72,500 2,880 ,716 25,172 ,000 ,995 1,005
-1657,031 108,867 -,433 -15,221 ,000 ,995 1,005
(Constant)
surf ace
age
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig. Tolerance VIF
Collinearity Statis tics
Dependent Variable: prixa.
9Diễn giải các hệ số của một hàm
hồi qui bội
Các hệ số gốc (bj)
Sự biến đổi của giá trị trung bình của
các Y khi Xj tăng thêm 1 đơn vị, mọi
yếu tố khác không đổi.
Kiểm định: tương tự như hồi qui đơn với
(n-k) bậc tự do
Hệ số chặn - hằng số (b0)
Giá trị trung bình của Y khi Xj = 0
10
Ví dụ về hồi qui tuyến tính bộitiếp
Coefficientsa
70015,462 5900,669 11,866 ,000
72,500 2,880 ,716 25,172 ,000 ,995 1,005
-1657,031 108,867 -,433 -15,221 ,000 ,995 1,005
(Constant)
surface
age
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Với mỗi piê (hơn 30 cm)
vuông tăng thêm, giá trung
bình tăng thêm 72,50$
Với mỗi năm tuổi tăng thêm,
giá trung bình giảm đi
1657,03$.
=70 015,46+ 72,50X1i- 1 657,03X2iiYˆ
11
Hệ số xác định bội
Tỉ lệ biến đổi của biến phụ thuộc được giải thích bằng
tất cả các biến độc lập
R2 = Biến đổi được giải thích = ESS
Tổng biến đổi TSS
Không bao giờ giảm khi các đại lượng được thêm vào
Vấn đề khi ta so sánh các mô hình
12
10
RR
k - n
1 - n
)R - (1 - 1 = R
22
22
Trong hồi qui bội, ta sử dụng hệ số xác định điều chỉnh
Hệ số xác định bội điều
chỉnh
13
Model Summaryb
,863a ,746 ,744 $32,014.32 1,344
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), age, surfacea.
Dependent Variable: prixb.
Ví dụ về hồi qui bội tiếp
R2 R2 điều chỉnh
14
Kiểm định mức ý nghĩa tổng quát
BẢNG PHÂN TÍCH PHƯƠNG SAI
MC
df SC MCR=RSS/p F
Regression k-1 RSS MCE=ESS/(n-k) MCR/MCE
Residue n-k ESS
Total n-1 TSS
15
ANOVAb
9,49E+11 2 4,746E+11 463,042 ,000a
3,24E+11 316 1024916646
1,27E+12 318
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), age, surfacea.
Dependent Variable: prixb.
Ví dụ về hồi qui bội
k-1 = 2, số các biến độc
lập n - 1
mức ý nghĩa (p-value)
tiếp
F với k-1 bậc tự do ở
tử số và n-k ở mẫu sốn - k
16
Ví dụ về hồi qui bội
F0 3.02
H0: b1 = b2 =…= bk = 0
H1: ít nhất là 1 trong
những bi 0
= .05
bậc tự do= 2 và 316
Giá trị tới hạn
Thống kê kiểm
định:
Quyết định:
Kết luận:
Bác bỏ với rủi ro mức = 0.05
Có ít nhất một trong các
biến phụ thuộc có liên
quan đến Y
= 0.05
F = 463.04
tiếp
3,024311468 =INVERSE.LOI.F(0,05;2;316)
17
Kiểm định mức ý nghĩa đối với
mỗi biến
Chỉ ra xem liệu có mối liên hệ tuyến tính
giữa Xj và Y
Sử dụng thống kê Student với n-k bậc tự
do
Các giả thuyết:
H0: bi = 0 (Không có mối liên hệ tuyến tính)
H1: bi 0 (có mối liên hệ tuyến tính giữa Xj
và Y)
18
Coefficientsa
70015,462 5900,669 11,866 ,000
72,500 2,880 ,716 25,172 ,000 ,995 1,005
-1657,031 108,867 -,433 -15,221 ,000 ,995 1,005
(Constant)
surface
age
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Ví dụ về hồi qui bội tiếp
i
i
t b
b
s
b
*
ˆ
ˆ
ˆ
=
19
Các điều kiện vận dụng mô
hình
Các điều kiện về dạng mô hình :
Tuyến tính của các biến độc lập so với biến phụ
thuộc
Các điều kiện về sai số mô hình (error):
Các sai số mô hình là độc lập (không tự tương quan)
và phân phối giống nhau theo phân phối chuẩn với
trung bình bằng 0 và variance s2 (homoscédasticité)
Các điều kiện về các số dự đoán :
Các biến độc lập không ngẫu nhiên
Các giá trị của các biến độc lập được đo lường
không có sai số
Các số dự đoán (prédicteurs) là độc lập theo đường
thẳng, (không có bội tương quan giữa các biến độc
lập - multicollinearity)
Các điều kiện về quan sát:
Tất cả các quan sát có cùng một vai trò
20
Mô hình với ảnh hưởng cố định ngược
với mô hình với ảnh hưởng ngẫu nhiên
Về nguyên tắc, hồi qui được thực hiện đối
với các mô hình có ảnh hưởng cố định
Các biến độc lập được kiểm soát
Mô hình cũng hoạt động đối với các biến
có ảnh hưởng ngẫu nhiên
Các biến độc lập là ngẫu nhiên
Về nguyên tắc, các biến này phải tuân theo
một phân phối chuẩn đa biến
21
Tuyến tính
Vẽ biểu đồ từng phần (partial plots)
Để đánh giá đặc trưng tuyến tính của
một biến Xj so với Y, chúng ta hồi qui
Y về toàn bộ các biến độc lập trừ Xj,
và chúng ta hồi qui Xj bằng các biến
độc lập khác
Chúng ta vẽ biểu đồ các phần dư
(residues) của hai hồi qui. Như vậy,
chúng ta loại bỏ hiệu lực của các
biến độc lập khác.
22
Tuyến tính tiếp
Partial Regression Plot
Dependent Variable: prix
surface
3000200010000-1000-2000
p
ri
x
200000
100000
0
-100000
-200000
23
Tuyến tính tiếp
Partial Regression Plot
Dependent Variable: prix
age
806040200-20
p
ri
x
200000
100000
0
-100000
-200000
24
Scatterplot
Dependent Variable: prix
Regression Adjusted (Press) Predicted Value
4000003000002000001000000
R
e
g
re
s
s
io
n
S
tu
de
nt
iz
e
d
R
e
si
d
u
al
4
2
0
-2
-4
Biểu đồ phần dư (residues)
25
Biểu đồ (histogram) phần dư
(residues)
Regression Standardized Residual
3,25
2,75
2,25
1,75
1,25
,75
,25
-,25
-,75
-1,25
-1,75
-2,25
-2,75
-3,25
-3,75
Histogram
Dependent Variable: prix
F
re
q
u
e
n
c
y
60
50
40
30
20
10
0
Std. Dev = 1,00
Mean = 0,00
N = 319,00
26
Normal probability plot
(Đồ thị theo hàm chuẩn)
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: prix
Observed Cum Prob
1,00,75,50,250,00
E
xp
e
ct
e
d
C
u
m
P
ro
b
1,00
,75
,50
,25
0,00
27
Hai kiểm định nhanh để kiểm
tra phân phối chuẩn
Nhờ vào hệ số mất cấn đối (skewness)
Trong đó, n là kích thước mẫu
Nhờ vào kurtose
Trong đó, n là kích thước mẫu
Nếu giá trị tuyệt đối của Z lớn hơn 1.96,
phân phối là không chuẩn với sai số ở mức
rủi ro 5%
n
6
skewness
=Z
n
24
kurtose
=Z
28
Sự bội tương quan giữa các biến
độc lập (multicollinearity)
Có sự tương quan lớn giữa các biến độc lập
Các hệ số đo lường ảnh hưởng phối hợp
Dẫn đến các hệ số không ổn định khi
chúng ta thêm các biến vào mô hình hồi
qui. Dấu của các hệ số có thể đảo ngược.
Luôn tồn tại, nhưng ở các mức độ ít nhiều
quan trọng
Qui tắc kinh nghiệm:
Tính tất cả các sự tương quan giữa các biến độc
lập
Nếu không có sự tương quan nào giữa các biến
độc lập vượt quá 0.8 và những sự tương quan
giữa biến phụ thuộc và các biến độc lập lớn hơn
các sự tương quan giữa các biến độc lập, coi
như không có multicollinearity
29
Kiểm tra Đa cộng tuyến
(Tolerance)
Đối với biến Xj , tolerance bằng 1-Rj2 với Rj là hệ số xác
định của biến Xj được hồi qui bởi tất cả các biến độc lập
khác
Các giá trị nhỏ của tolerance chỉ ra có nhiều
multicollinearity. Một giá trị tolerance bằng 0.10 tương ứng
với một sự tương quan bội 0.95. Đó là giá trị giới hạn mà
chúng ta giữ lại mô hình
Để xác định các biến có liên quan, cần phải giữ lại các
biến này của mô hình để chú ý đến việc thực hiện các
phép biến đổi các biến
30
Coefficientsa
70015,462 5900,669 11,866 ,000
72,500 2,880 ,716 25,172 ,000 ,995 1,005
-1657,031 108,867 -,433 -15,221 ,000 ,995 1,005
(Constant)
surface
age
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig. Tolerance VIF
Collinearity Statis tics
Dependent Variable: prixa.
Kiểm tra multicollinearity
(Tolerance) tiếp
31
Phép biến đổi các biến
Các điều kiện vận dụng mô hình
thường xuyên không đạt được:
Tuyến tính
Phương sai không đổi của các sai số
(errors) của mô hình
Một mô hình là tuyến tính nếu các
tham số hiện diện trong mô hình là
tuyến tính, ngay cả khi các biến độc
lập không tuyến tính
32
Phép biến đổi các biến
Các ví dụ của các mô hình tuyến tính:
Ví dụ mô hình không tuyến tính:
tiếp
This image cannot currently be displayed.
ebb= XY 10
ebbb=
2
210 XXY
ebb= XlogY 10
ebb= XY 10
eb=
b X
0
1
eY
33
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
b
= XY
Xlog'X,Ylog'Y ==
'Xlog'Y b=
34
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
eY
b
=
Yln'Y =
XY b = ln'
tiếp
35
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
XlogY b=
Xlog'X =
'XY b=
tiếp
36
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
b
=
X
X
Y
tiếp
X
1
'X,
Y
1
'Y ==
'X'Y b=
37
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
X
e1
e
Y b
b
=
tiếp
Y1
Y
ln'Y
=
X'Y b=
38
Diễn giải các hệ số
Nếu biến phụ thuộc là một biến
logarithm
Hệ số của biến độc lập Xk có thể được
hiểu là : sự biến đổi một đơn vị của Xk
dẫn đến 100(bk)% thay đổi của số
trung bình (mean) của Y
Nếu biến độc lập là một số
logarithm
Hệ số của biến độc lập Xk có thể được
hiểu là: sự biến đổi 100% dẫn đến một
sự thay đổi bk đơn vị của số trung bình
của Y
39
Diễn giải các hệ số
Nếu biến phụ thuộc và biến độc lập là
các số logarithms
Hệ số của biến độc lập Xk có thể được
hiểu là : 1% biến đổi Xk dẫn đến một
phần trăm biến đổi trung bình của Y của
bk. bk là tính đàn hồi (elasticity) của Y so
với Xk.
tiếp
40
Phép biến đổi để làm ổn định
phương sai
Nói chung, sự ổn định của phương sai
làm chuẩn hóa sự phân phối của biến
Khi phương sai của các phần dư
(residues) của mô hình tăng lên với giá
trị của một biến độc lập, một phép biến
đổi có thể là chia tất cả mô hình ban
đầu cho X:
Điều này là tương đương với việc áp
dụng phương pháp bình phương bé
nhất (WLS)
X
',',',
X
1
'X,
X
Y
'Y 0110
e
=eb=bb=b==
41
Phép biến đổi để làm ổn định
phương sai
Khi biến phụ thuộc có một độ lệch
chuẩn so với trung bình của nó là
lớn (hệ số biến thiên, tình trạng hiện
hành đối với các biến kinh tế), một
phép biến đổi logarithmic nói chung
cho phép:
Giảm đi heteroscedasticity (giảm đi sự
không đồng nhất phương sai của các sai
số của mô hình)
Chuẩn hóa biến
tiếp
42
Những quan sát lệch lạc (outliers)
Ba dạng:
Các điểm bẫy (leverage values)
Được đánh dấu bằng các giá trị của ma trận mũ
(hat values)
Những quan sát ảnh hưởng (influential)
Sự hủy bỏ của các quan sát này nói chung làm
thay đổi quan trọng ước lượng các tham số của
mô hình
Được đánh dấu bằng các khoảng cách Cook
Những quan sát lệch lạc (outliers):
Những quan sát mà đối với nó, biến phụ thuộc có
một giá trị “không bình thường” (anormal) so với
các giá trị của các biến độc lập
Những quan sát có giá trị lớn hơn hai hoặc ba lần
độ lệch chuẩn của đường trung tâm trong đồ thị
phần dư (residues)
Được đánh dấu bằng các “studentized deleted
residuals”
43
Các yếu tố của ma trận mũ “hat
matrix” hi
Mỗi giá trị có thể được biểu thị theo các yi
hiji chỉ ra trong chừng mực nào Yi có thể ảnh hưởng đến
Nếu hij là lớn, quan sát thứ i
ème có thể có một ảnh hưởng
quan trọng đến giá trị được điều chỉnh thứ jème
Chúng ta có thể chứng tỏ rằng
hj=hjj tóm lược ảnh hưởng tiềm tàng của yi đến tất cả các
giá trị được điều chỉnh
nnjiij2j21j1j Yh...Yh...YhYhYˆ =
=
j
2
ijii hh
jYˆ
jYˆ
44
Các yếu tố của ma trận mũ “hat
matrix” hi
Các giá trị nằm giữa 0 và 1 và giá trị trung
bình bằng (k+1)/n
Nếu p lớn hơn hoặc bằng 10 và n lớn hơn
hoặc bằng 50, quan sát được xem là một
điểm bẫy nếu nó lớn hơn 2(k+1)/n
Nếu không, quan sát được xem như là một
điểm bẫy nếu nó lớn hơn 3(k+1)/n (với ví
dụ: 9/319=0,028)
Một điểm bẫy là một giá trị sai lệch trong
khoảng không (trên đồ thị) của các biến
độc lập.
tiếp
45
Studentized Deleted Residuals
ti
*
: Chênh lệch giữa Yi và dựa trên mô hình
chứa đựng tất cả các quan, trừ i
: dạng lỗi đối với mô hình chứa đựng tất cả các
quan sát, trừ i
Một quan sát được xem như lệch lạc nếu
là giá trị phê phán đối với
kiểm định hai bên ở mức rủi ro 5% (gần
bằng 2)
*
1
i
i
ii
e
t
S h
=
ˆ
iY
iS
ie
kni tt
*
2pnt
46
Distance de Cook Di
Với sai số (residue)
studentisé
Đo lường chênh lệch giữa các hệ số đạt được từ
tất cả các số liệu và các hệ số đạt được bằng
việc rút ra quan sát thứ i
Nếu Di>4/(n-k), quan sát được xem như có ảnh
hưởng (trong ví dụ, 4/316=0,013)
2
2 1
i i
i
i
SR h
D
h
=
1
i
i
YX i
e
SR
S h
=
47
Những quan sát sai lệch (outliers)
Phải làm gì với các giá trị sai lệch ?
Rút ra khỏi mẫu, với điều kiện có thể
chứng minh được.
tiếp
48
Những quan sát sai lệch (outliers)
tiếp
49
Những quan sát sai lệch (outliers)
tiếp
Residuals Statisticsa
$51,357.88 $342,617.34 $178,465.20 $54,633.110 319
-2,327 3,005 ,000 1,000 319
$1,823.688 $7,224.813 $2,970.231 $904.991 319
$50,831.93 $341,766.78 $178,444.29 $54,677.261 319
-$117,631.58 $112,486.70 $.00 $31,913.487 319
-3,674 3,514 ,000 ,997 319
-3,685 3,540 ,000 1,002 319
-$118,308.41 $114,174.00 $20.91 $32,252.760 319
-3,761 3,607 ,000 1,008 319
,035 15,199 1,994 2,095 319
,000 ,189 ,004 ,012 319
,000 ,048 ,006 ,007 319
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Value
Minimum Maximum Mean Std. Deviation N
Dependent Variable: prixa.
50
Những quan sát sai lệch (outliers)
tiếp
51
Casewise Diagnostics
a
3,166 $195,250 $93,887.19 $101,362.81
2,095 $260,650 $193577.3 $67,072.66
-3,282 $170,200 $275273.7 -$105,073.66
3,514 $278,000 $165513.3 $112,486.70
2,935 $331,000 $237035.5 $93,964.50
-2,670 $58,500 $143966.3 -$85,466.34
-2,647 $90,250 $174996.4 -$84,746.37
-2,640 $70,600 $155110.4 -$84,510.41
-2,650 $65,950 $150802.3 -$84,852.29
-2,374 $102,150 $178147.7 -$75,997.67
-2,473 $96,400 $175556.2 -$79,156.23
-3,674 $106,250 $223881.6 -$117,631.58
-2,363 $126,100 $201761.0 -$75,660.96
-2,691 $130,100 $216263.4 -$86,163.36
-3,184 $123,900 $225828.6 -$101,928.61
Case Number
5
171
213
246
247
260
288
290
291
299
306
307
308
315
316
Std. Residual prix
Predicted
Value Residual
Dependent Variable: prixa.
Những quan sát sai lệch (outliers)
tiếp
Đánh giá kỹ hơn đưa ra những quan sát 3,5, 96, 171, 213, 215, 240,
243, 246, 247, 260, 277, 288, 290, 291, 296, 299, 301, 306, 307, 315,
et 316 như là các sai lệch tiềm tằng.
5 $195,250 2112 78
96 $138,250 129 1
315 $130,100 3000 43
52
Biến giả (dummy)
Các ví dụ: nam-nữ, có mặt – vắng
mặt do một điều kiện cụ thể
Được mã hóa 0 hoặc 1
Về mặt lý thuyết, các hằng số (hệ số
chặn) phải khác nhau
Giả sử rằng, có cùng hệ số hồi qui với
mỗi một loại
Số các biến giả cần thiết là số loại trừ
(-) 1
Nói chung được sử dụng đế thiết lập một nhân tố
kiểm soát
530 1 1 2 0 1 1
ˆ (0)i i iY b b X b b b X= =
0 1 1 2 0 2 1 1
ˆ (1) ( )i i iY b b X b b b bX= =
Biến giả (dummy)
Y = tiền lương
X1 = Số năm kinh nghiệm
X2 = Giới tính =
Nam (X2 = 1)
Nữ (X2 = 0)
0 nữ
1 nam
0 1 1 2 2
ˆ
i i iY b b X b X=
Cùng
hệ số
hồi qui
tiếp
54
Biến giả (dummy)
tiếp
X1 (giới tính)
Y (tiền lương)
b0 + b2
b0
Cùng hệ số
gốc
Hệ số chặn
(hằng số) khác
nhau
1b
55
Diễn giải hệ số của biến giả
Ví dụ:
Y: tiền lương năm tính bằng triệu đô la
Trung bình, nam thu nhập năm trên 6000$, các
điều kiện khác không đổi
1X : kinh nghiệm 2X
0 nữ
1 nam
:
0 1 1 2 2 1 2
ˆ 20 5 6i i i i iY b b X b X X X= =
56
Ví dụ về hồi qui bội
1 Hàng xóm dể chịu
0 hàng xóm khó chịu
Chúng ta đưa thêm vào một biến thứ ba trong mô
hình trước: hàng xóm
tiếp
57
Ví dụ về hồi qui bội tiếp
Model 1
Model 2
Coefficientsa
70015,462 5900,669 11,866 ,000
72,500 2,880 ,716 25,172 ,000 ,995 1,005
-1657,031 108,867 -,433 -15,221 ,000 ,995 1,005
(Constant)
surface
age
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Coefficientsa
33506,107 6682,137 5,014 ,000
64,409 2,733 ,636 23,570 ,000 ,885 1,130
-1114,692 114,857 -,291 -9,705 ,000 ,716 1,397
50673,109 5682,565 ,282 8,917 ,000 ,646 1,548
(Constant)
surface
age
voisinage
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
58
Ví dụ về hồi qui bội tiếp
Model 1
Model 2
Model Summaryb
,863a ,746 ,744 $32,014.319 1,344
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), age, surfacea.
Dependent Variable: prixb.
Model Summaryb
,893a ,797 ,795 $28,651.959 1,438
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), voisinage, surface, agea.
Dependent Variable: prixb.
59
Những tác dụng của mã hóa
(Effects coding)
Sự mã hóa riêng biệt các biến giả cốt là
thay thế các dòng lấy giá trị 0 đối với tất
cả các biến giả liên quan đến một biến cụ
thể bằng một giá trị -1.
Những hệ số của biến giả được hiểu là
phần chênh lệch so với trung bình và
không so với loại chênh lệch
60
Effects coding
tiếp
61
Effects coding
Model 2
Model Summaryb
,893a ,797 ,795 $28,651.959 1,438
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), voisinage, surface, agea.
Dependent Variable: prixb.
Model Summaryb
,893a ,797 ,795 $28,651.959 1,438
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), voisinage, surface, agea.
Dependent Variable: prixb.
Model 3
tiếp
62
Effects coding
Coefficientsa
33506,107 6682,137 5,014 ,000
64,409 2,733 ,636 23,570 ,000 ,885 1,130
-1114,692 114,857 -,291 -9,705 ,000 ,716 1,397
50673,109 5682,565 ,282 8,917 ,000 ,646 1,548
(Constant)
surface
age
voisinage
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Coefficientsa
58842,661 5427,539 10,841 ,000
64,409 2,733 ,636 23,570 ,000 ,885 1,130
-1114,692 114,857 -,291 -9,705 ,000 ,716 1,397
25336,554 2841,282 ,282 8,917 ,000 ,646 1,548
(Constant)
surface
age
voisinage
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Model 2
Model 3
tiếp
63
Lựa chọn các biến trong việc
xây dựng các mô hình
1. Qui tắc (nguyên tắc dè xẻn):
sử dụng ít các biến độc lập khi có
thể.
2. Hồi qui theo bước (stepwise)
lựa chọn các biến độc lập có liên quan
chặt chẽ nhất với biến phụ thuộc.
Thêm hoặc bỏ các biến tuỳ theo mức
độ giải thích mà chúng đem lại.
64
Đóng góp của một biến
độc lập
cho Xk là biến độc lập của mô hình mà
ta muốn đo sự đóng góp của nó
RSS(Xk| X1 , …, Xk-1 , Xk+1 , …, Xp)
=RSS(X1 , …, Xp)-RSS(X1 , …, Xk-1 , Xk+1 ,
…, Xp)
Đo sự đóng góp của Xk trong tổng biến đổi
được giải thích của Y (TSS)
kX
65
Sự đóng góp của một biến độc
lập
kX
Đo được sự đóng góp của X1 trong việc giải thích TSS
Từ l’ANOVA của hồi qui Từ l’ANOVA của hồi qui
tiếp
RSS(X1| X2 , X3)= RSS(X2, X3, X4) RSS(X3 , X4)-
iiii xxxy 4433221
ˆˆˆˆˆ bbbb =
ii xy 221
ˆˆˆ bb =
66
Hệ số xác định thành phần của
Đo lường phần của biến phụ thuộc (Y)
được giải thích bởi Xk, khi các biến khác
vẫn giữ nguyên không đổi (được kiểm
soát)
kX
),...,,,...,|(),...,(
),...,,,...,|(
1111
1112
,...1,1,...,1.
pkkkp
pkkk
pkkYk
XXXXXRSSXXRSSTSS
XXXXXRSS
r
=
67
Hệ số xác định thành phần của
Ví dụ cho một mô hình có hai biến độc
lập
kX
)|(),(
)|(
2121
212
2.1
XXRSSXXRSSTSS
XXRSS
rY
=
tiếp
68
Đóng góp của một tập con các
biến độc lập
Cho Xs là một tập con của các biến độc lập của
mô hình trong đó ta muốn đo sự đóng góp của nó
RSS(Xs| tất cả các biến trừ Xs)
=RSS(X1 , …, Xp)-RSS(tất cả các biến trừ Xs)
Đo sự đóng góp của tập con Xs trong tổng
biến đổi được giải thích của Y (TSS)
69
Đóng góp của một tập con các
biến độc lập
iiii xxxy 4433221
ˆˆˆˆˆ bbbb =
giả sử rằng Xs gồm X2 và X4
Từ l’ANOVA của hồi qui Từ l’ANOVA của hồi qui
tiếp
RSS(X1, X3| X2 )= RSS(X3)-RSS(X2, X3 , X4)
ii xy 221
ˆˆˆ bb =
70
Kiểm định một phần của mô hình
Xem xét sự đóng góp của một tập con
Xs các biến trong mối liên hệ của
chúng với Y
Giả thuyết H0:
Các biến của tập con không cải thiện một
cách có ý nghĩa mô hình khi tất cả các biến
khác bao gồm trong mô hình
Giả thiết đối (H1):
Ít nhất có một biến có nghĩa
Cần phải so sánh hai hàm hồi qui
Một hàm hồi qui bao gồm tất cả các biến.
Hàm còn lại bao gồm tất cả các biến trừ
các phần được kiểm định
71
Kiểm định thành phần F đối với sự
đóng góp của một tập con các biến
Thống kê kiểm định:
bậc tự do = m và (n-k-1)
m = số các biến trong tập con Xs
)(
/)|(
variables les toutes
s
Xexepté variables les toutes
ESM
mXRSS
F
s
=
72
Kiểm định thành phần F đối với sự
đóng góp của một biến
Các giả thuyết:
H0 : biến Xj không cải thiện một cách có ý
nghĩa mô hình khi tất cả các biến khác bao
gồm trong mô hình
H1 : biến Xj cải thiện một cách có ý nghĩa
mô hình khi các biến khác bao gồm trong
mô hình
Thống kê kiểm định :
bậc tự do = 1 và (n-k-1)
m = 1
jX
)(
/)|(
cácbienESM
mcácbientruXRSS
F
j j
X
=
73
Phương pháp STEPWISE
Bước 1
Ta thử tất cả các mô hình hồi qui đơn. Ta giữ lại biến mà
t quan là lớn nhất.
Bước 2
Tiếp theo, ta tìm biến tốt nhất trong số tất cả các biến còn
lại. Đưa biến có liên quan từng phần lớn nhất với biến phụ
thuộc vào mô hình, có chú ý đến các biến đã được đưa vào
mô hình trước đó.
Kiểm tra xem các biến đã được đưa vào mô hình vẫn còn có
ý nghĩa hay không. Nếu đúng ta chuyển sang bước 3, nếu
không, phải rút các biến không còn ý nghĩa nữa ra khỏi mô
hình.
Bước 3
Nếu còn các biến có liên quan thành phần một cách có ý
nghĩa, ta quay lại bước 2, nếu không ta dừng thuật toán
này lại.
74
Phương pháp STEPWISE
Quay lại ví dụ của doanh nghiệp Hatco
Các biến độc lập:
X1 : tốc độ giao hàng– thời gian để giao một sản phẩm khi đơn đặt hàng
đã được khẳng định.
X2 : mức giá– sự cảm nhận về mức giá của khách hàng
X3 : tính linh hoạt của giá–sự cảm nhận về thiện chí mà các nhân viên
giao dịch của HATCO chấp nhận đàm phán giá.
X4 : hình ảnh – hình ảnh của HATCO trong mắt các khách hàng dưới góc
độ là nhà cung cấp
X5 : dịch vụ -chất lượng chung của dịch vụ
X6 : năng lực bán hàng-cảm nhận về năng lực bán hàng của HATCO
X7 : chất lượng sản phẩm
Đại lượng phụ thuộc :
X9 : tỉ trọng của nhà cung cấp –phần trăm các sản phẩm cung cấp bởi
HATCO so với các nhà cung cấp khác.
tiếp
75
Phương pháp STEPWISE
Mô hình đầy đủ
tiếp
Model Summaryb
,880a ,775 ,758 4,4237 1,897
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), qualite du produit, service, force de vente,
flexibilite du prix, niveau de prix, image, vitesse de livraison
a.
Dependent Variable: importanceb.
Coefficie ntsa
-10,187 4,977 -2,047 ,044
-,058 2,013 -,008 -,029 ,977 ,028 35,747
-,697 2,090 -,093 -,333 ,740 ,032 31,597
3,368 ,411 ,520 8,191 ,000 ,608 1,645
-,042 ,667 -,005 -,063 ,950 ,347 2,879
8,369 3,918 ,699 2,136 ,035 ,023 43,834
1,281 ,947 ,110 1,352 ,180 ,371 2,697
,567 ,355 ,100 1,595 ,114 ,623 1,606
(Constant)
vitesse de livraison
niveau de prix
f lexibilite du prix
image
service
force de vente
qualite du produit
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardized
Coef f icients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: importancea.
76
Phương pháp STEPWISE
tiếp
77
Phương pháp STEPWISE
Phương pháp stepwise
tiếp
Model Summary d
,701a ,491 ,486 6,4458
,869b ,755 ,750 4,4980
,877c ,768 ,761 4,3938 1,910
Model
1
2
3
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), dịch vụa.
Predictors: (Constant) dịch vụ, linh hoạt của giáb.
Predictors: (Constant), service, f lexibilite du prix, force de ventec.
Dependent Variable: importanced.
Coefficientsa
21,653 2,596 8,341 ,000
8,384 ,862 ,701 9,722 ,000 1,000 1,000
-3,489 3,057 -1,141 ,257
7,974 ,603 ,666 13,221 ,000 ,996 1,004
3,336 ,327 ,515 10,210 ,000 ,996 1,004
-6,520 3,247 -2,008 ,047
7,621 ,607 ,637 12,547 ,000 ,936 1,068
3,376 ,320 ,521 10,562 ,000 ,993 1,007
1,406 ,591 ,121 2,378 ,019 ,939 1,064
(Constant)
dịch v ụ
(Constant)
dịch v ụ
Linh hoạt của giá
(Constant)
dịch v ụ
Linh hoạt của giá
Lực lượng bán hàng
Model
1
2
3
B Std. Error
Unstandardized
Coef f icients
Beta
Standardized
Coef f icients
t Sig. Tolerance VIF
Collinearity Stat istics
Dependent Variable: importancea.
78
Phương pháp STEPWISE
tiếp
Excluded Variablesd
,396a 4,812 ,000 ,439 ,626 1,599 ,626
-,377a -5,007 ,000 -,453 ,737 1,357 ,737
,515a 10,210 ,000 ,720 ,996 1,004 ,996
,016a ,216 ,830 ,022 ,911 1,098 ,911
,093a 1,252 ,214 ,126 ,942 1,062 ,942
-,154a -2,178 ,032 -,216 ,997 1,003 ,997
,016b ,205 ,838 ,021 ,405 2,469 ,405
-,020b -,267 ,790 -,027 ,464 2,156 ,464
,095b 1,808 ,074 ,181 ,892 1,121 ,892
,121b 2,378 ,019 ,236 ,939 1,064 ,936
,094b 1,683 ,096 ,169 ,799 1,252 ,797
,030c ,389 ,698 ,040 ,403 2,483 ,403
-,029c -,405 ,687 -,041 ,462 2,163 ,462
-,002c -,021 ,983 -,002 ,357 2,805 ,357
,071c 1,273 ,206 ,130 ,768 1,301 ,768
vitesse de l ivraison
niveau de prix
flexibi lite du prix
image
force de vente
qualite du produit
vitesse de l ivraison
niveau de prix
image
force de vente
qualite du produit
vitesse de l ivraison
niveau de prix
image
qualite du produit
Model
1
2
3
Beta In t Sig.
Partial
Correlation Tolerance VIF
Minimum
Tolerance
Coll inearity Statistics
Predictors in the Model: (Constant), servicea.
Predictors in the Model: (Constant), service, flexibi lite du prixb.
Predictors in the Model: (Constant), service, flexibi lite du prix, force de ventec.
Dependent Variable: importanced.
79
Mô hình hồi qui với sự tương
tác (interaction)
Cho phép kiểm định sự tương tác giữa
các cặp biến độc lập
Câu trả lời cho một biến độc lập tùy theo
các mức chênh lệch của một biến độc lập
khác
iiiiii xxxxy ebbbb = 32433221
80
Hiệu lực của sự tương tác
Chúng ta xem mô hình:
Không có yếu tố tương tác, hiệu lực của
biến X2 đối với biến Y được đo lường bởi b2
Khi có một yếu tố tương tác, hiệu lực của
biến X2 đối với biến Y được đo lường bởi b3
+ b4 X3
Hiệu lực thay đổi khi X3 tăng lên
iiiiii xxxxy ebbbb = 32433221
81
Y = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1
Y = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1
Ví dụ về sự tương tác
Hiệu lực (độ dốc) của X1 đối với Y phụ thuộc vào giá
trị của X2
X1
4
8
12
0
0 10.5 1.5
Y
Y = 1 + 2X1 + 3X2 + 4X1X2
ikikiii xxxy ebbbb = ˆ...ˆˆˆ 33221
82
Ví dụ về sự tương tác
tiếp
Trở lại ví dụ trước
Chúng ta muốn kiểm định một sự
tương tác có thể xãy ra giữa diện tích
và tuổi của ngôi nhà
Chúng ta tạo ra một biến bằng tích
giữa hai biến này
83
Ví dụ về sự tương tác
tiếp
Model Summaryb
,899a ,808 ,807 $27,820.472 1,506
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), voisinage, SUR_AGE, surfacea.
Dependent Variable: prixb.
Coefficientsa
15385,686 5653,136 2,722 ,007
70,910 2,779 ,700 25,520 ,000 ,807 1,239
-,618 ,057 -,299 -10,909 ,000 ,812 1,232
57677,118 5103,801 ,321 11,301 ,000 ,755 1,325
(Constant)
surface
SUR_AGE
voisinage
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: prixa.
Các file đính kèm theo tài liệu này:
- chap5_moi_ktl_764.pdf