Phân tích phần dư
? Các phần dư chuẩn hoá thường được sử dụng trong các
biểu đồ phần dư nhằm mục đích:
• Nhận biết các phần tử bất thường (thông thường, các
phần dư chuẩn hoá < -2 hoặc > +2).
• Cung cấp một sự hiểu biết sâu sắc về các giả định
rằng số hạng sai sốecó phân phối chuẩn.
? Việc tính toán các phần dư đã chuẩn hoá trong phân tích
hồi quy bội thì quá phức tạp để thực hiện bằng tay.
? Công cụ Regression của Excel có thể được sử dụng
56 trang |
Chia sẻ: maiphuongtl | Lượt xem: 3146 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Bài giảng Hồi quy bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Chương 5
Hồi quy bội
Mô hình hồi quy bội
Phương pháp bình phương bé nhất
Hệ số xác định bội
Các giả định của mô hình
Kiểm định ý nghĩa
Sử dụng phương trình hồi quy ước lượng
để ước lượng và dự báo
Biến độc lập định tính
Phân tích phần dư
2GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Mô hình hồi quy bội
Mô hình hồi quy bội
y = β0 + β1x1 + β2x2 + . . . + βpxp+ ε
Phương trình hồi quy bội
E(y) = β0 + β1x1 + β2x2 + . . . + βpxp
Phương trình hồi quy bội ước lượng
y = b0 + b1x1 + b2x2 + . . . + bpxp^
3GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Quy trình ước lượng
Mơ hình hồi quy bội
E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp + ε
Phương trình hồi quy bội
E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp
Các tham số khơng biết là
β0, β1, β2, . . . , βp
Dữ liệu mẫu:
x1 x2 . . . xp y
. . . .
. . . .
0 1 1 2 2ˆ ... p py b b x b x b x= + + + +
Phương trình hồi quy
bội ước lượng
Các số thống kê mẫu là
b0, b1, b2, . . . , bp
b0, b1, b2, . . . , bp
đưa ra các ước lượng cho
β0, β1, β2, . . . , βp
4GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Phương pháp bình phương bé nhất
Tiêu chuẩn bình phương bé nhất
Tính toán giá trị của các hệ số
Các công thức tính các hệ số hồi quy b0, b1, b2, . . . bp
liên quan đến việc sử dụng đại số ma trận. Chúng ta sẽ
dựa vào các gói phần mềm máy tính để thực hiện các
tính toán.
Lưu ý về việc giải thích các hệ số
bi là ước lượng của sự thay đổi trong y tương ứng với
một đơn vị thay đổi trong xi khi tất cả các biến độc lập
khác được giữ không thay đổi.
min ( iy yi−∑ )2^
5GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Hệ số xác định bội
Mối liên hệ giữa SST, SSR, SSE
SST = SSR + SSE
Hệ số xác định bội
R 2 = SSR/SST
Hệ số xác định bội điều chỉnh
( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2^^
R R n
n pa
2 21 1 1
1
= − − −− −( )
6GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Các giả định của mô hình
Các giả định về số hạng sai số ε
y Sai số ε là một biến ngẫu nhiên có trung bình bằng 0.
y Phương sai của ε , ký hiệu bằng σ 2, là bằng nhau với
mọi giá trị của các biến độc lập.
y Các giá trị của ε độc lập với nhau.
y Sai số ε là một biến ngẫu nhiên có phân phối chuẩn
phản ánh độ lệch giữa giá trị y và giá trị kỳ vọng của
y được cho bởi
β0 + β1x1 + β2x2 + . . . + βpxp
7GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Kiểm định ý nghĩa: Kiểm định F
Các giả thuyết
H0: β1 = β2 = . . . = βp = 0
Ha: Không phải tất cả βj = 0
(có ít nhất một βj ≠ 0).
Thống kê kiểm định
F = MSR/MSE
Quy tắc bác bỏ
Sử dụng thống kê kiểm định: Bác bỏ H0 nếu F > Fα
Sử dụng giá trị p: Bác bỏ H0 nếu giá trị p < α
trong đó Fα dựa vào phân phối F với p bậc tự do
ở tử số và n - p - 1 bậc tự do ở mẫu số
8GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Kiểm định ý nghĩa: Kiểm định F
Bảng ANOVA (giả sử có p biến độc lập)
Source of Sum of Degrees of Mean
Variation Squares Freedom Squares F
Regression SSR p
Error SSE n - p - 1
Total SST n - 1
SSRMSR
p
=
SSEMSE
1n p
= − −
MSR
MSE
F =
9GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Kiểm định ý nghĩa: Kiểm định t
Các giả thuyết
H0: βi = 0
Ha: βi = 0
Thống kê kiểm định
Quy tắc bác bỏ
Sử dụng thống kê kiểm định: Bác bỏ H0 nếu ⎜t⎟ > tα/2
Sử dụng giá trị p: Bác bỏ H0 nếu giá trị p < α
trong đó tα/2 dựa vào phân phối t với n - p - 1 bậc tự do
t b
s
i
bi
=
10GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Đa cộng tuyến
Thuật ngữ đa công tuyến (multicollinearity) nói đến sự
tương quan giữa các biến độc lập.
Ví dụ như các biến x1 và x2 cộng tuyến hoàn hảo nếu
x1 = b0 + b1x2
với các số thực b0 và b1 nào đó.
Hai biến này nằm trên một đường thẳng, và một trong
hai biến hoàn toàn xác định biến khác. Không có thông
tin mới về y thu được bằng cách thêm x2 vào phương
trình hồi quy đã bao gồm x1 (hay ngược lại).
11GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Một ví dụ số cụ thể
Hãy xem dữ liệu có tính giả thuyết sau:
Có thể thấy rõ ràng là x2i = 5x1i. Vì vậy có sự cộng tuyến
hoàn hảo giữa x1 và x2 bởi vì hệ số tương quan .
Biến x2* được tạo thành từ x2 đơn giản bằng cách cộng thêm
các số sau, những số này được lấy từ bảng số ngẫu nhiên: 2,
0, 7, 9, 2. Bây giờ, không còn có sự cộng tuyến hoàn hảo
giữa biến x1 và x2*. Tuy nhiên, hai biến này tương quan chặt
bởi vì .
75
75
15
52
50
10
X2*
X2
X1
15212997
15012090
302418
=
1 2
1x xr
=*
1 2
0,9959x xr
12GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Hậu quả của đa cộng tuyến
Phương sai của các hệ số hồi quy bị phóng đại.
Độ lớn của các hệ số hồi quy có thể khác với những gì
được kỳ vọng.
Dấu của các hệ số hồi quy có thể không như kỳ vọng.
Thêm vào hay bớt đi các biến cộng tuyến với các biến
khác tạo ra những thay đổi lớn về các hệ số.
Bỏ một điểm dữ liệu có thể gây ra những thay đổi lớn về
ước lượng hay dấu của các hệ số.
Trong một số trường hợp, tỷ số F có thể có ý nghĩa nhưng
các tỷ số t thì không.
13GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Cách phát hiện đa cộng tuyến
Hệ số xác định R 2 cao nhưng tỷ số |t| thấp
Hệ số tương quan giữa các cặp biến độc lập cao. Quy tắc
kinh nghiệm là khi |r| > 0,7.
Sử dụng hồi quy phụ
Nhân tử phóng đại phương sai VIF. Quy tắc kinh nghiệm
là khi VIFj > 10 thì mức độ cộng tuyến
được xem là cao.
>2 0,9jR
14GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Cách phát hiện đa cộng tuyến:
Nhân tử phóng đại phương sai
1,00,50,0
100
50
0 Rh2
VIF
Mối liên hệ giữa VIF và Rh2
Nhân tử phóng đại phương sai liên hệ với xh:
( ) 211h hVIF x R= −
vớiù là giá trị R2 nhận được khi hồi quy x, như là biến
độc lập, theo các biến độc lập còn lại.
2
hR
15GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Cách giải quyết vấn đề đa cộng tuyến
Bỏ một biến cộng tuyến khỏi mô hình
Thay đổi kế hoạch lấy mẫu để đưa vào những phần tử
ngoài phạm vi đa cộng tuyến
Biến đổi các biến (transformations of variables)
Hồi quy dạng sóng (ridge regression)
16GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Đa cộng tuyến và dự báo
Khi xảy ra đa cộng tuyến ta không thể xác định được tác
động riêng biệt của bất cứ biến độc lập cụ thể nào lên
biến phụ thuộc. Tuy nhiên, nếu phương trình hồi quy ước
lượng sẽ được sử dụng chỉ cho các mục đích dự báo, thì
đa cộng tuyến thường không phải là một vấn đề quan
trọng.
17GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng phương trình hồi quy ước lượng
để ước lượng và tiên đoán
Thủ tục để ước lượng giá trị trung bình của y và tiên
đoán một giá trị cá biệt của y trong hồi quy bội tương tự
với các thủ tục trong hồi quy đơn.
Chúng ta thay các giá trị đã cho của x1, x2, . . . , xp vào
phương trình hồi quy ước lượng và sử dụng các giá trị
tương ứng của y làm ước lượng điểm.
Các công thức cần thiết để xây dựng các ước lượng
khoảng cho giá trị trung bình của y và cho một giá trị cá
biệt của y vượt ngoài phạm vi của bài giảng này.
Các gói phần mềm cho hồi quy bội thường sẽ cung cấp
các ước lượng khoảng này.
18GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Một công ty phần mềm đã thu thập số liệu cho một mẫu
gồm 20 lập trình viên máy tính. Một đề xuất được đưa ra là
phân tích hồi quy có thể được sử dụng để xác định xem tiền
lương (Salary) có liên hệ với số năm kinh nghiệm (Exper.)
và số điểm đạt được dựa trên trắc nghiệm năng khiếu lập
trình viên của công ty (Score).
Số năm kinh nghiệm, số điểm đạt được dựa trên trắc
nghiệm năng khiếu và tiền lương theo năm tương ứng
(1.000$) cho một mẫu gồm 20 lập trình viên được cho ở
slide kế tiếp.
19GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Exper. Score Salary Exper. Score Salary
4 78 24 9 88 38
7 100 43 2 73 26,6
1 86 23,7 10 75 36,2
5 82 34,3 5 81 31,6
8 86 35,8 6 74 29
10 84 38 8 87 34
0 75 22,2 4 79 30,1
1 80 23,1 6 94 33,9
6 83 30 3 70 28,2
6 91 33 3 89 30
20GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Mô hình hồi quy bội
Giả sử ta tin là tiền lương (y) có liên quan với số năm
kinh nghiệm (x1) và số điểm đạt được dựa trên trắc
nghiệm năng khiếu lập trình viên (x2) theo mô hình hồi
quy sau:
y = β0 + β1x1 + β2x2 + ε
trong đó
y = tiền lương hàng năm (000$)
x1 = số năm kinh nghiệm
x2 = số điểm đạt được dựa trên trắc nghiệm năng
khiếu lập trình viên
21GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Mô hình hồi quy bội
Sử dụng giả định E(ε ) = 0, ta có
E(y) = β0 + β1x1 + β2x2
Phương trình hồi quy ước lượng
b0, b1, b2 là các ước lượng theo phương pháp bình phương
bé nhất của β0, β1, β2
Do đó
y = b0 + b1x1 + b2x2^
22GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Giải tìm các ước lượng của β0, β1, β2
Gói
phần mềm
để giải
các bài toán
hồi quy bội
b0 =
b1 =
b2 =
R2 =
v.v…
Nhập liệu
Xuất liệu
theo bình phương
bé nhất
x1 x2 y
4 78 24
7 100 43
. . .
. . .
3 89 30
23GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính công thức (trình bày dữ liệu được nhập vào)
A B C D
1 Programmer Experience (yrs) Test Score Salary ($K)
2 1 4 78 24.0
3 2 7 100 43.0
4 3 1 86 23.7
5 4 5 82 34.3
6 5 8 86 35.8
7 6 10 84 38.0
8 7 0 75 22.2
9 8 1 80 23.1
Lưu ý: Các dòng 10-21 không được trình bày.
24GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Thực hiện phân tích hồi quy bội
Bước 1 Chọn menu kéo xuống Tools
Bước 2 Chọn dùng Data Analysis
Bước 3 Chọn dùng Regression từ danh sách Analysis
Tools
… còn nữa
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
25GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Thực hiện phân tích hồi quy bội
Bước 4 Khi hộp thoại Regression hiện ra:
Nhập D1:D21 vào hộp Input Y Range
Nhập B1:C21 vào hộp Input X Range
Chọn Labels
Chọn Confidence Level
Nhập 95 vào hộp Confidence Level
Chọn Output Range và nhập A24 vào hộp
Output Range
Nhắp chuột vào OK
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
26GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Bảng tính giá trị (Regression Statistics)
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
A B C
23
24 SUMMARY OUTPUT
25
26 Regression Statistics
27 Multiple R 0.913334059
28 R Square 0.834179103
29 Adjusted R Square 0.814670762
30 Standard Error 2.418762076
31 Observations 20
32
27GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Bảng tính giá trị (ANOVA Output)
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
A B C D E F
32
33 ANOVA
34 df SS MS F Significance F
35 Regression 2 500.3285 250.1643 42.76013 2.32774E-07
36 Residual 17 99.45697 5.85041
37 Total 19 599.7855
38
Giá trị Significance F ở ô F35 là
giá trị p (p-value) được dùng để
kiểm định mức ý nghĩa toàn bộ.
28GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Bảng tính giá trị (Regression Equation Output)
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
A B C D E
38
39 Coeffic. Std. Err. t Stat P-value
40 Intercept 3.17394 6.15607 0.5156 0.61279
41 Experience 1.4039 0.19857 7.0702 1.9E-06
42 Test Score 0.25089 0.07735 3.2433 0.00478
43
Lưu ý: Các cột F-I không được trình bày.
Giá trị P (P-value) ở ô E41 được
dùng để kiểm định mức ý nghĩa
riêng của Experience.
29GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Bảng tính giá trị (Regression Equation Output)
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
A B C D E
38
39 Coeffic. Std. Err. t Stat P-value
40 Intercept 3.17394 6.15607 0.5156 0.61279
41 Experience 1.4039 0.19857 7.0702 1.9E-06
42 Test Score 0.25089 0.07735 3.2433 0.00478
43
Lưu ý: Các cột F-I không được trình bày.
Giá trị P (P-value) ở ô E42 được
dùng để kiểm định mức ý nghĩa
riêng của Test Score.
30GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Phương trình hồi quy ước lượng
SALARY = 3,174 + 1,404(EXPER) + 0,2509(SCORE)
Lưu ý: Tiền lương dự báo sẽ tính theo ngàn đô la
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
31GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Bảng tính giá trị (Regression Equation Output)
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
A B F G H I
38
39 Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0%
40 Intercept 3.17394 -9.814248 16.1621 -9.814248 16.1621
41 Experience 1.4039 0.984962 1.82284 0.984962 1.82284
42 Test Score 0.25089 0.087682 0.41409 0.087682 0.41409
43
Lưu ý: Các cột C-E đã được giấu đi.
32GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Kiểm định F
• Các giả thuyết H0: β1 = β2 = 0
Ha: Một hoặc cả hai tham số không
bằng 0.
• Quy tắc bác bỏ
Với α = 0,05 và df = 2; 17: F0,05; 2; 17 = 3,59
Bác bỏ H0 nếu F > 3,59.
• Giá trị thống kê kiểm định
F = MSR/MSE = 250,16/5,85 = 42,76
• Kết luận
Ta có thể bác bỏ H0.
33GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Kiểm định t về ý nghĩa của từng tham số
• Các giả thuyết H0: βi = 0
Ha: βi = 0
• Quy tắc bác bỏ
Với α = 0,05 và df = 17, t0,025; 17 = 2,11
Bác bỏ H0 nếu t > 2,11
• Giá trị thống kê kiểm định
• Kết luận
Bác bỏ H0: β1 = 0 Bác bỏ H0: β2 = 0
1
1 1, 4039 7,07
0,1986b
b
s
= =
2
2 0, 25089 3,24
0,07735b
b
s
= =
34GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Biến độc lập định tính
Trong nhiều tình huống ta phải làm việc với các biến độc
lập định tính như giới tính (nam, nữ), phương thức thanh
toán (tiền mặt, séc, thẻ tín dụng), v.v…
Ví dụ như x2 có thể là giới tính trong đó x2 = 0 chỉ nam và
x2 = 1 chỉ nữ.
Trong trường hợp này, x2 được gọi là một biến giả hay
biến chỉ báo.
Nếu một biến định tính có k mức độ thì ta cần có k - 1
biến giả, mỗi biến giả được mã hoá là 0 hoặc 1.
Ví dụ như một biến có các mức độ A, B, và C sẽ được
biểu thị bằng các giá trị x1 và x2 một cách tương ứng là
(0, 0), (1, 0), và (0,1).
35GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Như là một sự mở rộng của vấn đề liên quan đến khảo
sát tiền lương của lập trình viên máy tính, giả sử là ban
giám đốc còn tin rằng tiền lương năm có quan hệ với việc
lập trình viên có bằng tốt nghiệp đại học về khoa học máy
tính hay hệ thống thông tin hay không.
Số năm kinh nghiệm, điểm đạt được trong kỳ thi trắc
nghiệm năng khiếu lập trình viên, có bằng đại học có liên
quan hay không, và tiền lương hàng năm (000$) cho từng
người trong số 20 lập trình viên được lấy mẫu được trình
bày trong slide tiếp theo.
36GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Exp. Score Degr. Salary Exp. Score Degr. Salary
4 78 No 24 9 88 Yes 38
7 100 Yes 43 2 73 No 26,6
1 86 No 23,7 10 75 Yes 36,2
5 82 Yes 34,3 5 81 No 31,6
8 86 Yes 35,8 6 74 No 29
10 84 Yes 38 8 87 Yes 34
0 75 No 22,2 4 79 No 30,1
1 80 No 23,1 6 94 Yes 33,9
6 83 No 30 3 70 No 28,2
6 91 Yes 33 3 89 No 30
37GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Phương trình hồi quy bội
E(y) = β0 + β1x1 + β2x2 + β3x3
Phương trình hồi quy ước lượng
y = b0 + b1x1 + b2x2 + b3x3
trong đó
y = tiền lương năm (000$)
x1 = số năm kinh nghiệm
x2 = số điểm đạt được dựa trên trắc nghiệm năng
khiếu lập trình viên
x3 = 0 nếu lập trình viên không có bằng đại học
1 nếu lập trình viên có bằng đại học
Lưu ý: x3 được xem như là một biến giả.
^
38GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính công thức (trình bày dữ liệu)
A B C D E
1
Pro-
grammer
Experience
(years)
Test
Score
Grad.
Degree
Salary
($000)
2 1 4 78 0 24.0
3 2 7 100 1 43.0
4 3 1 86 0 23.7
5 4 5 82 1 34.3
6 5 8 86 1 35.8
7 6 10 84 1 38.0
8 7 0 75 0 22.2
Lưu ý: Các hàng 9-21 không được trình bày.
39GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính giá trị (Regression Statistics)
A B C
23
24 SUMMARY OUTPUT
25
26 Regression Statistics
27 Multiple R 0.920215239
28 R Square 0.846796085
29 Adjusted R Square 0.818070351
30 Standard Error 2.396475101
31 Observations 20
32
40GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính giá trị (ANOVA Output)
A B C D E F
32
33 ANOVA
34 df SS MS F Significance F
35 Regression 3 507.896 169.2987 29.47866 9.41675E-07
36 Residual 16 91.88949 5.743093
37 Total 19 599.7855
38
41GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính giá trị (Regression Equation Output)
A B C D E
38
39 Coeffic. Std. Err. t Stat P-value
40 Intercept 7.94485 7.3808 1.0764 0.2977
41 Experience 1.14758 0.2976 3.8561 0.0014
42 Test Score 0.19694 0.0899 2.1905 0.04364
43 Grad. Degr. 2.28042 1.98661 1.1479 0.26789
Lưu ý: Các cột F-I không được trình bày.
42GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính giá trị (Regression Equation Output)
A B F G H I
38
39 Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0%
40 Intercept 7.94485 -7.701739 23.5914 -7.7017385 23.591436
41 Experience 1.14758 0.516695 1.77847 0.51669483 1.7784686
42 Test Score 0.19694 0.00635 0.38752 0.00634964 0.3875243
43 Grad. Degr. 2.28042 -1.931002 6.49185 -1.9310017 6.4918494
Lưu ý: Các cột C-E đã được dấu đi.
43GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Giải thích các tham số
• b1 = 1,15
Tiền lương được kỳ vọng tăng 1.150$ cho mỗi năm
kinh nghiệm tăng thêm (khi tất cả các biến độc lập
khác được giữ không thay đổi)
44GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Giải thích các tham số
• b2 = 0,197
Tiền lương được kỳ vọng tăng 197$ cho mỗi điểm
tăng thêm đạt được trong trắc nghiệm năng khiếu lập
trình viên (khi tất cả các biến độc lập khác được giữ
không thay đổi)
45GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên (B)
Giải thích các tham số
• b3 = 2,28
Tiền lương được kỳ vọng cao hơn 2.280$ đối với
người có bằng đại học so với người không có bằng đại
học (khi tất cả các biến độc lập khác được giữ không
thay đổi)
46GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Phân tích phần dư
Đối với hồi quy tuyến tính đơn biểu đồ phần dư dựa vào
và biểu đồ phần dư dựa vào x cung cấp cùng một
thông tin.
Trong phân tích hồi quy bội sử dụng biểu đồ phần dư dựa
vào để quyết định xem các giả định của mô hình có
được thoả mãn không thì thích hợp hơn.
yˆ
yˆ
47GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Phân tích phần dư
Các phần dư chuẩn hoá thường được sử dụng trong các
biểu đồ phần dư nhằm mục đích:
• Nhận biết các phần tử bất thường (thông thường, các
phần dư chuẩn hoá +2).
• Cung cấp một sự hiểu biết sâu sắc về các giả định
rằng số hạng sai số ε có phân phối chuẩn.
Việc tính toán các phần dư đã chuẩn hoá trong phân tích
hồi quy bội thì quá phức tạp để thực hiện bằng tay.
Công cụ Regression của Excel có thể được sử dụng.
48GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng Excel để xây dựng
biểu đồ phần dư chuẩn hoá
Bảng tính giá trị (Residual Output)
A B C D
28
29 RESIDUAL OUTPUT
30
31 Observation Predicted Y Residuals Standard Residuals
32 1 27.89626052 -3.89626052 -1.771706896
33 2 37.95204323 5.047956775 2.295406016
34 3 26.02901122 -2.32901122 -1.059047572
35 4 32.11201403 2.187985973 0.994920596
36 5 36.34250715 -0.54250715 -0.246688757
Lưu ý: Các dòng 37-51 không được trình bày.
49GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Sử dụng Excel để xây dựng
biểu đồ phần dư chuẩn hoá
Standardized Residual Plot
-2
-1
0
1
2
3
0 10 20 30 40 50
Predicted Salary
S
t
a
n
d
a
r
d
R
e
s
i
d
u
a
l
s
Outlier
50GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Nghiên cứu tính hợp lý (validity) của hồi quy:
Các phần tử bất thường và quan sát cĩ ảnh hưởng
.
.
.
..
.
.
.
..
..
... .
* Outlier
y
x
Regression line
without outlier
Regression
line with
outlier
Outliers
... .... ...
..
. . .
Point with a large
value of xiy
x
*
Regression line
when all data are
included
No relationship in
this cluster
Influential Observations
51GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Hồi quy đa thức
Mơ hình hồi quy đa thức một biến:
Y= β0+β1 X + β2X2 + β3X3 +. . . + βmXm +ε
trong đĩ m là the bậc của đa thức – lũy thừa cao nhất của X xuất hiện trong mơ
hình. Bậc của đa thức là bậc của mơ hình.
X1
Y
X1
Y
y b b X= +0 1
( )
y b b X b X
b
= + +
<
0 1 2
2
2 0
y b b X= +0 1
y b b X b X b X= + + +0 1 2 2 3 3
52GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Mơ hình hồi quy bội cho tính mùa cộng tính
Năm
Mùa 1 2 3 4 5
Thu 3497 3726 3989 4248 4443
Đông 3484 3589 3870 4105 4307
Xuân 3553 3742 3996 4263 4466
Hạ 3837 4050 4327 4544 4795
3000
3200
3400
3600
3800
4000
4200
4400
4600
4800
5000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Thời đoạn
L
ư
ơ
ï
n
g
x
a
ê
n
g
b
a
ù
n
t
r
u
n
g
b
ì
n
h
h
a
ø
n
g
n
g
a
ø
y
(
g
a
l
o
â
n
g
)
53GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Mơ hình hồi quy bội cho tính mùa cộng tính
Mơ hình cộng tính (bỏ qua thành phần chu kỳ) là:
trong đĩ:
0 1 2 3 4β β β β β ε= + + + + + ty t F W S
số hạng ngẫu nhiên ở thời đoạn tεt =
biến chỉ báo cho mùa xuânS =
biến chỉ báo cho mùa đơngW =
biến chỉ báo cho mùa thuF =
nhân tốmùa cho mùa xuânβ4 =
nhân tốmùa cho mùa đơngβ3 =
nhân tốmùa cho mùa thuβ2 =
độ dốc (xu hướng) của chuỗi thời gianβ1 =
mức độ của chuỗi thời gianβ0 =
số thời đoạnt =
54GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Nhập liệu
55GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Xuất liệu từ Excel
56GV: Th.S Trần Kim NgọcĐại học Công nghệ Sài Gòn
Các giai đoạn xây dựng mơ hình
Đặc trưng mơ hình
Ước lượng hệ số
Kiểm tra mơ hình
Diễn giải và suy diễn
Các file đính kèm theo tài liệu này:
- chuong_5_hoi_quy_boi_7289.pdf