Thống kê ứng dụng - Chương 11: Hồi quy và tương quan đơn biến
Phân biệt liên hệ TK và liên hệ hàm số khi phân
tích hồi quy
● Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất
của Y
● Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA
● DL về X: dữ liệu mẫu
● Một X, có thể có nhiều Y
● DL mẫu xác định đường HQ mẫu dự đoán
đường HQ tổng thể
30 trang |
Chia sẻ: nhung.12 | Lượt xem: 1179 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Thống kê ứng dụng - Chương 11: Hồi quy và tương quan đơn biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 11
HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN
Ths. Nguyễn Tiến Dũng
Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội
Email: dung.nguyentien3@hust.edu.vn
MỤC TIÊU CỦA CHƯƠNG
●Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp
phân tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương
quan Pearson và hệ số tương quan hạng
Spearman
© Nguyễn Tiến Dũng 2Thống kê ứng dụng
CÁC NỘI DUNG CHÍNH
11.1 Làm quen với hồi quy
11.2 Mô hình hồi quy tuyến tính đơn
11.3 Tương quan tuyến tính
11.4 Tương quan giữa các biến định tính
© Nguyễn Tiến Dũng 3Thống kê ứng dụng
11.1 LÀM QUEN VỚI HỒI QUY
● 11.1.1 Khái niệm hồi quy
● Regression, Regression to mediority: quy các điểm DL đã biết về một
đường lý thuyết
● Đ/nghĩa của TK:
● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay
nhiều biến độc lập (biến đầu vào),
● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa
trên các giá trị biết trước của biến độc lập
● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định
lượng
● TD:
● KQ học tập = f(thời gian tự học)
● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)
● Lượng tiêu thụ = f(P1, P2, P3, P4)
● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)
© Nguyễn Tiến Dũng 4Thống kê ứng dụng
11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân
tích hồi quy
●Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất
của Y
●Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA
● DL về X: dữ liệu mẫu
● Một X, có thể có nhiều Y
● DL mẫu xác định đường HQ mẫu dự đoán
đường HQ tổng thể
© Nguyễn Tiến Dũng 5Thống kê ứng dụng
11.1.3 Quy ước về ký hiệu và tên gọi
●Biến số: Y = b0 + b1.X1 + b2X2
● Biến độc lập, biến đầu vào, biến giải thích: X1, X2
● Biến phụ thuộc, biến đầu ra, biến được giải thích:
Y
● Xki: giá trị của quan sát thứ i của biến Xk.
● b0, b1, b2: các hệ số của phương trình hồi quy
●Hồi quy đơn biến và hồi quy đa biến (HQ bội)
● HQ đơn biến (simple regression): 1 biến ĐL
● HQ đa biến (multiple regression): nhiều biến ĐL
© Nguyễn Tiến Dũng 6Thống kê ứng dụng
11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ
thuộc
© Nguyễn Tiến Dũng 7Thống kê ứng dụng
11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
●11.2.1 Mở đầu
● NC mối liên hệ giữa thu nhập
(X) và chi tiêu (Y)
● Lấy mẫu n hộ gia đình
● Đường hồi quy lý thuyết
● E(y|xi) = b0 + b1.xi
● yi = b0 + b1xi + ei
● b0: hệ số tung độ gốc (hệ số
chặn)
● b1: hệ số dốc (hệ số góc)
● ei: sai số, thể hiện yếu tố nhiễu
© Nguyễn Tiến Dũng 8Thống kê ứng dụng
11.2.2 Các giả định liên quan đến yếu tố nhiễu
●Các ei tại mỗi xi có phân
phối bình thường
●Không có sự tương
quan giữa các nhiễu,
hay các ei độc lập với
nhau
© Nguyễn Tiến Dũng 9Thống kê ứng dụng
11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy
●b1: hệ số độ dốc, đo lường lượng thay đổi TB
trong biến phụ thuộc Y khi X thay đổi 1 đơn vị.
●b0: hệ số tung độ gốc cho biết giá trị của Y khi
X = 0, có thể coi là ảnh hưởng TB của các
yếu tố khác mà không có mặt trong mô hình
© Nguyễn Tiến Dũng 10Thống kê ứng dụng
Dữ liệu mẫu Bảng 11.1 Trang 311
Stt Số năm (X) Doanh số (Y)
1 3 487
2 5 445
3 2 272
4 8 641
5 2 187
6 6 440
7 7 346
8 1 238
9 4 312
10 2 269
11 9 655
12 6 563
© Nguyễn Tiến Dũng 11Thống kê ứng dụng
Xác định các hệ số hồi quy
●Phương pháp Cực tiểu
hoá tổng bình phương
của các phần dư
© Nguyễn Tiến Dũng 12
2 2
0 1
1 1
min min ( )
n n
i i i
i i
e y b b y
1 1 1 1 1
1 2
2 2 2
2
1 1
1 1
0 1
1
( )( ) . .
1( ) .
n n n n n
i i i i i i i i
i i i i i
n n
n n
i i
i i
i i
i i
x x y y x y n x y x y x y
n
b
x x x n x x x
n
b y b x
Thống kê ứng dụng
© Nguyễn Tiến Dũng 13
Tử số của b1Mẫu số của b1
Thống kê ứng dụng
11.2.4 Tính toán các kết quả hồi quy bằng Excel
●Vẽ đồ thị Scatter Chart + Add Trendline
© Nguyễn Tiến Dũng 14Thống kê ứng dụng
Sử dụng Data Analysis: Regression
© Nguyễn Tiến Dũng 15Thống kê ứng dụng
11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi
quy
● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa
Xmin và Xmax, hoặc không quá xa Xmin và Xmax
● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai
số khi ước lượng Yi càng lớn.
● 𝑥 = 4,583 chỉ nên dự báo y quanh giá trị TB này.
● TD: Nếu một NVBH có 5 năm kinh nghiệm, thì
doanh số người này có thể đạt là:
© Nguyễn Tiến Dũng 16
ˆ 175,829 49,910 5 425,379 .)y (tr.ñ
Thống kê ứng dụng
11.2.6 Hệ số xác định của PTHQ
●Hệ số xác định (Coefficient of Determination)
© Nguyễn Tiến Dũng 17
2
1
2
1
2
1
2
( )
ˆ( )
ˆ( )
n
i
i
n
i
i
n
i i
i
SST SSR SSE
SST y y
SSR y y
SSE y y
SSR
R
SST
Thống kê ứng dụng
11.2.7 Sai số chuẩn của hồi quy
●Sai số chuẩn của hồi quy sY/X: Thể hiện độ
lệch của các giá trị ŷi xung quanh yi
© Nguyễn Tiến Dũng 18
2
1
/X
/X
ˆ( )
2 2
84.834, 295
92,1055
12 2
n
i i
i
Y
Y
y y
SSE
s
n n
s
Thống kê ứng dụng
© Nguyễn Tiến Dũng 19Thống kê ứng dụng
11.2.8 Suy diễn TK về hệ số độ dốc
●11.2.8.1 Định lý Gauss-Markov
●Giả định: PP của Y là bình thường thì PP của
b0 và b1 cũng là PP bình thường
●Đ/lý Gauss-Markov
● Trong các ƯL tuyến tính không chệch cho hệ số
hồi quy tổng thể, ƯL tìm được bằng PP bình
phương bé nhất có PS cực tiểu.
© Nguyễn Tiến Dũng 20Thống kê ứng dụng
11.2.8.2 Khoảng tin cậy cho hệ số độ dốc
© Nguyễn Tiến Dũng 21Thống kê ứng dụng
11.2.8.3 KĐ ý nghĩa của hệ số độ dốc
●Cặp giả thuyết KĐ
●Chỉ tiêu KĐ tính: t = b1/sb1
●Quy tắc bác bỏ H0:
●TD:
● b1 = 49,910
● sb1 = 10,502 (xem Trang 323 về cách tính)
● tStat = 4,752 p-value = 0,008
● t tra bảng: tn-2;α/2 = t10; 0,025=2,228
●Bác bỏ H0.
© Nguyễn Tiến Dũng 22
0 1
1 1
2; /2
2; /2
: 0
: 0
0
Baùc boû H neáu
n
n
H
H
t t
t t
Thống kê ứng dụng
© Nguyễn Tiến Dũng 23
2
2 /
1
2
1
1
8.483, 429
110, 294
76,917
( )
110, 294 10,502
Y X
b n
i
i
b
s
s
x x
s
Thống kê ứng dụng
11.2.9 Phân tích phần dư (residuals/ errors)
●Mục đích: Kiểm tra tính đúng đắn của các giả
định (assumptions) của phương trình hồi quy
1. Quan hệ giữa X và Y thực sự là quan hệ
tuyến tính trung bình của các phần dư ei
= 0
2. Các phần dư ei có PP normal
3. PS của các phần dư là không đổi
4. Các phần dư là độc lập với nhau (không có
hiện tượng tự tương quan giữa các phần
dư)
© Nguyễn Tiến Dũng 24Thống kê ứng dụng
11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và
giá trị cá biệt của Y
●Giá trị TB
© Nguyễn Tiến Dũng 25
● Giá trị cá biệt
0 0
0 0 1 0
2
0
2; /2 |
2
1
ˆ(y | )
ˆ
( )1
( )
y
y n Y X n
i
i
E x y e
y b b x
x x
e t s
n
x x
0 0
0 0 1 0
2
0
2; /2 |
2
1
ˆ
ˆ
( )1
1
( )
y
y n Y X n
i
i
y y e
y b b x
x x
e t s
n
x x
Thống kê ứng dụng
11.3 TƯƠNG QUAN TUYẾN TÍNH
●11.3.1 Hệ số tương quan tổng thể rho
●11.3.2 Hệ số tương quan mẫu rXY
© Nguyễn Tiến Dũng 26
cov( , )
var( ) var( )
.
XY
XY
XY
X Y
X Y
X Y
1
2 2
1 1
( )( )
.
( ) ( )
n
i i
XY i
XY
n n
X Y
i i
i i
x x y y
s
r
s s
x x y y
Thống kê ứng dụng
Giá trị và ý nghĩa của hệ số tương quan Pearson
● r < 0: có mối liên hệ TQTT nghịch
● r > 0: có mối liên hệ TQTT thuận
● |r| > 0,8 : TQTT rất mạnh
● |r| = 0,6 – 0,8 : TQTT mạnh
● |r| = 0,4 – 0,6 : TQTT vừa phải
● |r| = 0,2 – 0,4 : TQTT yếu
● |r| < 0,2 : TQTT rất yếu
© Nguyễn Tiến Dũng 27Thống kê ứng dụng
KĐ ý nghĩa của hệ số tương quan tuyến tính
●Cặp giả thuyết KĐ
●Chỉ tiêu KĐ
●Quy tắc bác bỏ H0
● Bác bỏ H0 nếu |t| > tn-2;α/2
●TD: Trang 345
● tStat = 4,7057
● tn-2; /2 = 2,228
●Bác bỏ H0 hệ số TQ tổng
thể thực sự khác 0
© Nguyễn Tiến Dũng 28
0
1
: 0
: 0
H
H
22
2
11
2
r n
t r
rr
n
Thống kê ứng dụng
11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH
11.4.1 Hệ số tương quan hạng Spearman
11.4.2 Hệ số Kendall Tau
11.4.3 Hệ số tương quan khác đối với DL thứ
bậc
© Nguyễn Tiến Dũng 29Thống kê ứng dụng
KĐ theo hệ số tương quan hạng Spearman rS
● Biến x1 và x2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến
thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp
quan sát
● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n)
● Tính hệ số tương quan hạng rS
● H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng
thể = 0)
● Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh
● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường
với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z
© Nguyễn Tiến Dũng 30
1
1 / 1
S
S
r
z r n
n
2
1
6
1
( 1)
S
n
i
i
d
r
n n
Thống kê ứng dụng
Các file đính kèm theo tài liệu này:
- tkud2015_ch11_5227.pdf