Bài giảng Hồi quy và tương quan
Hệ số tương quan • Hệ số tương quan (Coefficient of correlation) được sử dụng để đo lường độ lớn của mối quan hệ giữa hai biến số
Bạn đang xem nội dung tài liệu Bài giảng Hồi quy và tương quan, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1Hồi quy và tương quan
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FE
V (
lít)
MỤC TIÊU
• Đánh giá sự liên quan giữa hai biến định
lượng thông qua biểu đồ
• Xây dựng và phiên giải đường hồi quy
• Tính và phiên giải được hệ số tương quan
• Kiểm định đường hồi quy
TẠI SAO CẦN?
– Dự đoán các giá trị của các biến phụ thuộc (y)
dựa trên các giá trị của các độc lập (x1,
x2,xk.).
• ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, ....
– Phân tích mối quan hệ giữa các biến độc lập
và biến phụ thuộc:
• ví dụ: mối quan hệ giữa mức độ mỡ trong máu và
tuổi
MÔ HÌNH HỒI QUI
• Biểu đồ chấm điểm thể hiện quan hệ giữa chiều cao và
dung tích thở gắng sức (FEV)
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FE
V
(lí
t)
MÔ HÌNH HỒI QUI (tiếp)
• Nhận xét gì?
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FE
V
(lí
t)
• FEV tăng cùng với Chiều cao
• Vậy FEV tăng như thế nào?
• Tăng bao nhiêu khi chiều cao tăng thêm x cm?
MÔ HÌNH HỒI QUI (tiếp)
• Mô hình tuyến tính
y= a + bx + e
• Trong đó
y = biến phụ thuộc
x = biến độc lập
a = giao điểm
b = độ dốc
e = giá trị sai số x
y
a
b
y= a+ bx + e
2CÁC BƯỚC TIẾN HÀNH XÂY
DỰNG ĐƯỜNG HỒI QUI
1. Đánh giá các giả thuyết
2. Xác định các hệ số
3. Đánh giá các hệ số hồi quy
4. Sử dụng để ước lượng/dự đóan
ĐÁNH GIÁ CÁC GIẢ THUYẾT
• Biến x, y là biến ngẫu nhiên
• Giá trị của biến y có phân bố chuẩn
• Tập hợp các giá trị của y có
phương sai như nhau
XÁC ĐỊNH CÁC HỆ SỐ
• Các hệ số được ước lượng:
– trên một mẫu rút ra từ quần thể
– tính tóan các giá trị thống kê mẫu
– xây dựng phương trình đường thẳng tốt nhất
mô tả được mối quan hệ giữa hai biến?
Vậy đường thẳng tốt
nhất là đường nào?
w
w
w
w
w w w w
w
w w
w
w w
w
x
y
ĐƯỜNG (HỒI QUI)
TRUNG BÌNH TỐI THIỂU
Là một đường thẳng mà từ đó tổng
bình phương trung tới đường thẳng
trung bình là nhỏ nhất (tối thiểu)
ĐƯỜNG (HỒI QUI)
TRUNG BÌNH TỐI THIỂU
3
3
w
w
w
w
41
1
4
(1,2)
2
2
(2,4)
(3,1.5)
Tổng bình phương = (2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 +
(4,3.2)
(3.2 - 4)2 = 6.89
Tổng bình phương = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99
2.5
Hãy so sánh hai đường thẳng
Tổng bình phương càng
nhỏ thì đường thẳng phù
hợp với bộ số liệu tốt
hơn.
TÍNH HỆ SỐ HỒI QUI
Tính các hệ số hồi quy từ mẫu
å
å
å
å å
å
å
=
=
=
= =
=
=
-
-
=
-
--
=
n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
i
i
n
i
ii
n
x
x
n
yx
yx
xx
yyxx
b
1
1
2
2
1
1 1
1
2
1
)(
))((
)(
))((
xbya -=
Đường hồi quy
xbbyˆ 10 +=
Đường hồi quy quần thể
exy ++= ba
3• Chiều cao và FEV của 20 sinh viên
VÍ DỤ
3.60162.0
3.20161.3
3.42161.2
2.85161.2
3.19160.4
3.54157.0
3.54154.0
FEVheight
Biến phụ thuộc, YBiến độc lập, X
TÍNH TAY
Sy2Sx2SxySxSx
...........................
38.028.42209577635724776
0.713.42916722545905485
10.05.42500624139505079
(y-y)2(x-x)2y2x2xyyx
Lập bảng số liệu
ĐƯỜNG HỒI QUI
;86,3
38,165
=
=
y
x
n = 20.
xbxay 0744,045,8ˆ +-=+=
å = 6,3307x å = 1,77y
å = 2,5475872x å = 0,12797xyå = 8,3062y
20
)6,3307(2,547587
20
)1,77)(6,3307(0,12797
2
-
-
=b = 0,0744. 38,165*0744,086,3 -=a = -8,45
• Đường hồi quy mô tả mối quan hệ giữa FEV
và chiều cao sẽ là:
FEV=-8,45 + 0,0744*chiều cao
Tính đường hồi qui bằng MS EXCEL
Tools > Data Analysis > Regression >
[bôi đen khỏang y và khỏang x] > OK
ĐƯỜNG HỒI QUI
KẾT QUẢ TỪ EXCEL
0.12600.02280.00723.03090.02450.0744X Variable 1
0.0856-16.97860.0521-2.07984.0611-8.4465Intercept
Upper 95%Lower 95%P-valuet StatSECoef.
9.438719Total
0.34726.249318Residual
0.00729.18653.18943.18941Regression
Sig. FFMSSSdf
ANOVA
20Observations
0.5892Standard Error
0.3011Adjusted R Square
0.3379R Square
0.5813Multiple R
Regression Statistics
SUMMARY OUTPUT
xy 0744,045,8ˆ +-=
PHIÊN GIẢI ĐƯỜNG HỒI QUI
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FE
V
(lí
t)
heightFEV 0744,045,8 +-=
Đây là giá trị độ dốc, với mỗi một cm cao
lên thì FEV sẽ tăng 0,0744 lít
giá trị điểm cắt
4ĐÁNH GIÁ ĐƯỜNG HỒI QUI
• Phương pháp bình phương tối thiểu sẽ cho
chúng ta đường hồi qui kể cả khi không có mối
quan hệ tuyến tính giữa x và
• Chúng ta cần phải đánh giá xem đường hồi qui
có phải là tốt nhất hay không?
• Chúng ta đánh giá độ dốc (slope) của đường hồi
qui (ít khi đánh giá điểm cắt – Intercept)
ĐÁNH GIÁ ĐỘ DỐC
– Khi không có mối quan hệ tuyến tính giữa
hai biến, đường hồi qui sẽ nằm ngang
q
q
q
q
q
q
q
q q
q
q
q
q
các giá trị (x) khác nhau cho
kết quả khác nhau ở (y)
độ dốc khác không (0)
q
q
q
q
q
q
qq
q
q
q
Kh. Có mối quan hệ tuyến tính
các giá trị (x) khác nhau cho kết
quả không khác nhau ở (y)
độ dốc bằng không (0)
Có mối quan hệ tuyến tính
• Chúng ta có thể suy luận b từ b bằng cách kiểm
định:
H0: b = 0
H1: b ≠ 0 (or 0)
– The test statistic is
– Nếu sai số có phân bố chuẩn thì thống kê này sẽ có
phân bố t-student với df=n-2
bs
bt b-=
sai số chuẩn của b.
å -
= 2
2
)( xx
ss
i
b
trong đó
KIỂM ĐỊNH ĐỘ DỐC
( )åå ----=
2222 )()(
2
1 xxbyy
n
s ii
• Kiểm định giả thuyết thống kê về mối quan
hệ tuyết tính giữa chiều cao và dung tích
thở gắng sức của các sinh viên trường y,
sử dụng a = 5%.
VÍ DỤ
• để tính t, chúng ta cần:
• b=0,0744
• sb=0,025
• vùng bác bỏ t > t.025 or t < -t.025 with n = n-2 =
18; khỏang, t.025 = 2,1
• kết luận: độ dốc đường hồi qui khác 0 có ý
nghĩa TK, đường hồi qui là mô tả tốt nhất.
031,3025
00744,0 =-=-= .s
bt
b
b
VÍ DỤ Kiểm định độ dốc: kếtquả từ EXCEL
0.12600.02280.00723.03090.02450.0744X Variable 1
0.0856-16.97860.0521-2.07984.0611-8.4465Intercept
Upper 95%Lower 95%P-valuet StatSECoef.
9.438719Total
0.34726.249318Residual
0.00729.18653.18943.18941Regression
Sig. FFMSSSdf
ANOVA
20Observations
0.5892Standard Error
0.3011Adjusted R Square
0.3379R Square
0.5813Multiple R
Regression Statistics
SUMMARY OUTPUT
có đủ bằng chứng để kết
luận chiều cao có khả năng
dự đoán FEV
5Phần 2
– Để đo lường độ mạnh của mối quan hệ
tuyến tính chúng ta dùng hệ số xác định
SST
SSR
yy
yy
R =
-
-
=
å
å
2
2
2
)(
)ˆ(
Hệ số xác định
Hệ số xác định
• Sự biến thiên của các giá trị quan sát và
giá trị trung bình:
Tổng biến thiên của y (SST)
Mô hình hồi qui (SSR)
còn lại, chưa lý giải Sai số (SSE)
lý giải
một ph
ần
Hệ số xác định
x1 x2
y1
y2
y
Hai điểm số liệu (x1,y1) và (x2,y2)
=-+- 22
2
1 )yy()yy(
2
2
2
1 )yyˆ()yyˆ( -+-
2
22
2
11 )yˆy()yˆy( -+-+
Tổng biến thiên y = Biến thiên lý giải bằng
đường hồi qui
+ Phần chưa lý giải (sai số)
biến thiên của y = SSR + SSE
Hệ số xác định
• R2 đo lường tỷ lệ biến thiên của y được lý giải bằng
sự biến thiên của x
å å
å å
å -
-
=
-
=
n
y
y
n
x
xb
yy
SSRR
i
i
i
i
i
2
2
2
22
2
2
)(
)(
(
)(
• R2 có giá trị từ 0 đến 1
R2 = 1: lý tưởng, đường hồi qui trùng với các điểm số
liệu.
R2 = 0: không có mối liên hệ giữa x và y.
Ví dụ:
3379,0
)(
)(
(
2
2
2
22
2 =
-
-
=
å å
å å
n
y
y
n
x
xb
R
i
i
i
i
6Ví dụ
0.12600.02280.00723.03090.02450.0744X Variable 1
0.0856-16.97860.0521-2.07984.0611-8.4465Intercept
Upper 95%Lower 95%P-valuet StatSECoef.
9.438719Total
0.34726.249318Residual
0.00729.18653.18943.18941Regression
Sig. FFMSSSdf
ANOVA
20Observations
0.5892Standard Error
0.3011Adjusted R Square
0.3379R Square
0.5813Multiple R
Regression Statistics
SUMMARY OUTPUT
Hệ số xác định=0,3379, nghĩa
là chỉ có 33,8% biến thiên của
FEV được lý giải bằng sự biến
thiên của chiều cao (mô hình
chưa phải là mô hình tốt)
Sử dụng đường hồi qui
• Nếu mô hình hồi quy là mô tả tốt cho mối
quan hệ giữa hai biến chúng ta có thể
dùng mô hình đó để dự đóan giá trị của y:
– Ước lượng điểm
– Ước lượng khỏang
Ước lượng điểm
• Ví dụ:
– Ước lượng FEV của một sinh viên cao 187cm:
y=-8,45+0,0744*187=5,46 lít
– Một sinh viên cao 187cm sẽ có dung tích thở
gắng sức là 5,46 lít
– Kết quả này chính xác như thế nào?
Ước lượng khoảng
• Hai giá trị khỏang:
– Ước lượng khỏang giá trị của y với một giá trị của
x
– Khỏang tin cậy – ước lượng trung bình của y với
mỗi giá trị của x.
å -
-
++± - 2
2
|)2/1( )(
)(1
1ˆ
xx
xx
n
sty
i
p
xya
å -
-
+± - 2
2
|)2/1( )(
)(1ˆ
xx
xx
n
sty
i
p
xya
Kiểm định F cho mô hình
hồi quy
)
)(
(
2
22
n
x
xb ii
åå -
n
y
y ii
2
2 )(åå -
-
n-1Total
SSRes/
dfSST-SSRegn-2
Residual
(SSRes)
MSR/MSESSReg/df1
Regression
(SSReg)
Sig. FFMSSSdf
ANOVA
Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or 0)
Bác bỏ H0 nếu F>F1,n-2, 1-a
Không bác bỏ H0 nếu F< F1,n-2, 1-a
Hệ số tương quan
7Hệ số tương quan
• Hệ số tương quan (Coefficient of correlation)
được sử dụng để đo lường độ lớn của mối quan
hệ giữa hai biến số.
Y
X
Y
X
Y
X
Y
X
Y
X
Ví dụ một số giá trị hệ số
tương quan
r = -1 r = -.6 r = 0
r = .6 r = 1
Cách tính
• Công thức
• Giá trị hệ số tương quan nằm trong khỏang -1
đến 1
– nếu r = -1 (mối tương quan nghịch) hoặc r = +1 (mối
tương quan thuận) tất cả các điểm số liệu nằm trên
đường hồi quy
– nếu r = 0 không có mối tương quan
( )[ ]
( )å å
å å
-
-
=
nyy
nxxb
r
i
ii
/
/
22
222
Kiểm định giả thuyết cho r
• Giả thuyết
H0: r = 0 (không liên quan)
H1: r ¹ 0 (có mối quan hệ tuyến tính)
• Kiểm định
2
2
rt
r
n
r-
=
1-
-
với df = n - 2
Ví dụ
• Hệ số tương quan giữa
FEV và chiều cao
• Kiểm định
H0: r = 0 (không liên quan)
H1: r ¹ 0 (có mối quan hệ
tuyến tính)
t>t tra bảng=2,1 à bác bỏ H0,
có mối quan hệ tuyến tính
giữa FEV và chiều cao,
[ ] 58,0
20/)1,77(6,306
20/)6,3307(2,547587)0744,0(
2
22
=
-
-
=r
02,3
220
58,01
058,0
2
=
-
-
-
=t
Một số dạng hồi quy khác
8Mô hình tuyến tính – không
tuyến tính
Không tuyến tính,
hồi quy bội
Tuyến tínhü
X
e e
X
Y
X
Y
X
Hồi quy đa biến
• Có nhiều biến độc lập
– y = b0+b1x1 + b2x2+ ....+bnxn+ e
• Hồi quy logistics:
– y = b0+b1x1 + b2x2+ ....+bnxn+ e
– Trong đó y là biến phụ thuộc chỉ có hai giá trị
có/không
Các file đính kèm theo tài liệu này:
- hoiqui_7001.pdf