Bài giảng Hồi quy tuyến tính đơn giản
Các phần tửbất thườngvà các quan sát có ảnh hưởng
Dò tìm các phần tử bất thường
- Một phần tử bất thườnglà một quan sát khác
thường khi được so sánh với dữ liệu khác.
- Minitab xếp một quan sát vào loại phần tử bất
thường nếu giá trị phần dư chuẩn hoá của nó < -2 hay > +2.
- Quy tắc phần dư chuẩn hoá này đôi khi không
nhận ra một quan sát lớn khác thường là một
phần tử bất thường.
- Khiếm khuyết của quy tắc này có thể vượt qua
bằng cách dùng các phần dư xoá bỏ student hoá.
- |Phần dư xoá bỏ student hoá thứ i| sẽ lớn hơn
|phần dư chuẩn hoá thứ i|.
64 trang |
Chia sẻ: maiphuongtl | Lượt xem: 7154 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Bài giảng Hồi quy tuyến tính đơn giản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Chương 4
Hồi quy tuyến tính đơn giản
Q Mô hình hồi quy tuyến tính đơn giản
Q Phương pháp bình phương bé nhất
Q Hệ số xác định
Q Các giả định của mô hình
Q Kiểm định ý nghĩa
Q Công cụ hồi quy của Excel
Q Dùng phương trình hồi quy ước lượng để ước lượng
và dự đoán
Q Phân tích phần dư: Xác nhận tính hợp lệ của các
giả định của mô hình
Q Các phần tử bất thường và các quan sát có ảnh hưởng
2
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích hồi quy
Q Phân tích hồi quy nghiên cứu mối liên hệ phụ
thuộc của một biến (gọi là biến phụ thuộc hay biến
được giải thích) vào một hay nhiều biến khác
(được gọi là (các) biến độc lập hay giải thích) với
ý tưởng là ước lượng hoặc dự báo biến phụ thuộc
trên cơ sở giá trị đã cho của (các) biến độc lập.
Q Biến phụ thuộc là biến ngẫu nhiên, có quy luật
phân phối xác suất
Q (Các) biến độc lập không phải là biến ngẫu nhiên,
giá trị của chúng đã được cho trước.
3
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Mối liên hệ tuyến tính
Lượng cầu
về thịt bò,
y
∈
(1)Giá thịt bò (x1)
(2)Giá của mặt hàng thay thế (x2)
(3)Thu nhập của người tiêu dùng (x3)
(4)Tập quán, thị hiệu, sở thích của
người tiêu dùng (x4)
(5)Quy mô thị trường (x5)
Biểu diễn dưới dạng toán học,
y = f(x1, x2, x3, x4, x5) + ε
4
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Mối liên hệ tuyến tính (tiếp theo)
Nếu y phụ thuộc vào các x theo dạng tuyến tính
(dạng đường thẳng)
Nếu y phụ thuộc vào các x theo dạng phi tuyến tính
(dạng đường cong)
0 1 1 2 2 3 3 4 4 5 5y x x x x xβ β β β β β ε= + + + + + +
0 1 1 2 2 3 3 4 4 5 5y x x x x xβ β β β β β ε≠ + + + + + +
5
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Mô hình hồi quy tuyến tính đơn giản
Q Mô hình hồi quy tuyến tính đơn giản
y = β0 + β1x + ε
Q Phương trình hồi quy tuyến tính đơn giản
E(y) = β0 + β1x
Q Phương trình hồi quy tuyến tính đơn giản
ước lượng
y = b0 + b1x
^
6
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
1
Mô tả phương trình hồi quy
tuyến tính đơn giản
Phương trình hồi quy tuyến tính
đơn giản chỉ mối liên hệ tuyến
tính chính xác giữa giá trị kỳ
vọng hay giá trị trung bình của
y, biến phụ thuộc, và x, biến
độc lập hay biến dự báo:
E[yi]=β0 + β1 xi
Các giá trị quan sát thực tế của
y khác với giá trị kỳ vọng bởi
một sai số không giải thích được
hay sai số ngẫu nhiên:
Yi = E[yi] + εi
= β0 + β1 xi + εi
X
Y
E[y]=β0 + β1 x
Xi
} β1 = Hệ số góc
β0 = Tung
độ gốc
Yi {Sai số:εi
Đồ thị hồi quy
7
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Quy trình ước lượng trong hồi quy tuyến
tính đơn giản
Mô hình hồi quy
y = β0 + β1x +ε
Phương trình hồi quy
E(y) = β0 + β1x
Các tham số không biếtβ0, β1
Dữ liệu mẫu:
x y
x1 y1
. .
. .
xn yn
b0 và b1
đưa ra các ước lượng cho
β0 và β1
Phương trình hồi quy
ước lượng
Các số thống kê mẫu
b0, b1
0 1yˆ b b x= +
8
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Tìm một đường thẳng “thích hợp” nhất
X
Y
Dữ liệu
X
Y
Ba sai số so với
giá trị tính theo
đường thẳng thích
hợp
X
Y
Ba sai số so với giá trị
tính theo đường thẳng
bình phương bé nhất
X
Các sai số so với giá trị
tính theo đường thẳng
bình phương bé nhất
được cực tiểu hoá
9
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các sai số trong hồi quy
.
{ˆi i ie y y= −
y
x
iy
ˆiy
xi
ˆ :iy
Sai số
Điểm dữ liệu quan sát
Giá trị dự báo của y ứng với xi
Đường hồi quy thích hợp nhất
0 1ˆ xy b b= +
10
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phương pháp bình phương bé nhất
Q Tiêu chuẩn bình phương bé nhất
trong đó:
yi = giá trị quan sát của biến phụ thuộc
cho quan sát thứ i
yi = giá trị ước lượng của biến phụ thuộc
cho quan sát thứ i
^
n n
2 2
i i
i=1 i=1
ˆmin SSE = e (y )iy= −∑ ∑
11
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phương pháp bình phương bé nhất
b0SSE
b1
b0
b1
Ở điểm này SSE cực
tiểu đối với b0 và b1
0 1
1 1
2
0 1
1 1 1
n n
i i
i i
n n n
i i i i
i i i
y nb b x
x y b x b x
= =
= = =
= +
= +
∑ ∑
∑ ∑ ∑
12
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Hệ số góc của phương trình hồi quy ước lượng
Q Hệ số chặn của phương trình hồi quy ước lượng
b0 = y - b1x hay b0 = (Σyi / n) - b1(Σxi / n)
trong đó:
xi = trị số của biến độc lập với quan sát thứ i
yi = trị số của biến phụ thuộc với quan sát thứ i
x = giá trị trung bình của biến độc lập
y = giá trị trung bình của biến phụ thuộc
n = tổng số quan sát
__
1 2 2
( )
( )
i i i i
i i
n x y x y
b
n x x
−= −
∑ ∑ ∑∑ ∑
_
_
Phương pháp bình phương bé nhất
∑ − −= ∑ −1 2
( )( )
( )
i i
i
x x y yb
x x
hay
13
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
x i y i x i
2 y i
2 x iy i
x 1 y 1 x 1
2 y 1
2 x 1y 1
x 2 y 2 x 2
2 y 2
2 x 2y 2
: : : : :
x n y n x n
2 y n
2 x ny n
Σx i Σy i Σx i
2 Σy i
2 Σx iy i
Bảng tính toán
14
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Đợt bán xôn của Reed Auto
Q Hồi quy tuyến tính đơn giản
Reed Auto định kỳ có một
đợt bán xôn đặc biệt kéo
dài suốt một tuần. Như
là một phần của chiến dịch
quảng cáo Reed thực hiện
một hoặc một số quảng cáo trên TV trong thời
gian cuối tuần trước đợt bán xôn. Dữ liệu từ một
mẫu gồm 5 đợt bán xôn trước đây được cho dưới
đây.
15
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Đợt bán xôn của Reed Auto
Số lần quảng cáo Số lượng xe ô tô
trên TV bán được
1 14
3 24
2 18
1 17
3 27
16
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Hệ số góc (hay độ dốc) của phương trình hồi quy
ước lượng
Q Hệ số chặn (hay tung độ gốc) của phương trình
hồi quy ước lượng
b0 = 100/5 - 5(10/5) = 10
Q Phương trình hồi quy ước lượng
y = 10 + 5x^
Ví dụ: Đợt bán xôn của Reed Auto
−= =−1 2
5(220) (10)(100) 5
5(24) (10)
b
17
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Dùng CASIO fx-500MS
MODE 3 (Reg) 1 (Lin) [trên màn hình hiện REG]
SHIFT MODE 1 (Scl) = [xoá bộ nhớ]
(Nhập dữ liệu)
1 14 M+ [trên màn hình nhảy n = 1]
3 24 M+ [trên màn hình nhảy n = 2]
2 18 M+ [trên màn hình nhảy n = 3]
1 17 M+ [trên màn hình nhảy n = 4]
3 27 M+ [trên màn hình nhảy n = 5]
AC
SHIFT 2 1 = [cho b0 = 10]
SHIFT 2 2 = [cho b1 = 5]
SHIFT 2 3 = [cho r = 0,936585811]
18
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Dùng CASIO fx-570MS
MODE MODE 2 (Reg) 1 (Lin)
SHIFT MODE 1 (Scl) = [xoá bộ nhớ]
(Nhập dữ liệu:)
1 14 M+ [trên màn hình nhảy n = 1]
3 24 M+ [trên màn hình nhảy n = 2]
2 18 M+ [trên màn hình nhảy n = 3]
1 17 M+ [trên màn hình nhảy n = 4]
3 27 M+ [trên màn hình nhảy n = 5]
AC
SHIFT 2 1 = [cho b0 = 10]
SHIFT 2 2 = [cho b1 = 5]
SHIFT 2 3 = [cho r = 0,936585811]
19
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Dùng CASIO fx-500ES
SHIFT 9 3 = AC [xoá bộ nhớ]
SHIFT MODE ∇ 4 Frequency?
1: ON 2: OFF
MODE 2 (STAT) 2: A+BX [hồi quy tuyến tính]
(Nhập dữ liệu)
20
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Dùng CASIO fx-500ES
(Nhập dữ liệu)
1 = 3 = 2 = 1 = 3 =
14 = 24 = 18 = 17 = 27 = ON
SHIFT 1 7 1:A ; 2:B ; 3: r ; 4: x mũ ; 5: y mũ
SHIFT MODE 6 Fix 0~9? (định số số lẻ)
Với CASIO fx-570ES:
MODE 3 (STAT) 2: A+BX [hồi quy tuyến tính]
21
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Hệ số xác định, r2, là một tiêu chuẩn mô tả để đánh giá cường độ của mối liên
hệ hồi quy, một tiêu chuẩn đánh giá đường hồi quy phù hợp với dữ liệu tốt tới
mức độ nào.
.
{
Y
X
Y
Y
Y
X
{
Tổng độ lệch
Độ lệch
được giải thích
Độ lệch
không được giải thích
SST
SSE
SST
SSRr
SSR+ SSE = SST
)yy()y(y)y(y
−==
∑ −+∑ −=∑ −
−+−=−
1
ˆˆ
2
222
ˆˆ
quy) (Hồi dư) (Phần
thích giải được thích giải được lệch độ
lệch ộ Đ khônglệch Độ= Tổng
)yy( )y(y )y(y
Tỷ lệ phần trăm
của toàn bộ biến
thiên được giải
thích bởi hồi quy.
Hồi quy tốt tới mức độ nào?
22
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Hồi quy tốt tới mức độ nào?
Q SST = tổng các độ lệch bình phương toàn bộ
Q SSR = tổng các độ lệch bình phương do hồi quy
Q SSE = tổng các độ lệch bình phương do phần dư
( ) ( )
2
2 2= − = − ∑∑ ∑i ySST y y y n
( )2 1ˆi x ySSR y y b xy n
Σ Σ⎛ ⎞= − = Σ −⎜ ⎟⎝ ⎠∑
( )2 2 1 0ˆi iSSE y y y b xy b y= − = Σ − Σ − Σ∑
23
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Hệ số xác định
r2 = SSR/SST = 100/114 = 0,8772
Mối liên hệ hồi quy là rất mạnh vì 88% phần
biến thiên trong số xe ô tô đã bán ra có thể được
giải thích bởi mối liên hệ tuyến tính giữa số lần
quảng cáo trên TV và số xe ô tô bán được.
Ví dụ: Đợt bán xôn của Reed Auto
24
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Hệ số tương quan
Q Hệ số tương quan mẫu
trong đó:
b1 = hệ số góc phương trình hồi quy ước lượng
b= 21(dấu của ) r rá û
b= 1(dấu của ) Hệ số xác địnhr á û ä á ù
xbby 10ˆ +=
25
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các giá trị khác nhau của hệ số tương quan
26
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Đợt bán xôn của Reed Auto
Q Hệ số tương quan mẫu
Dấu của b1 trong phương trình là “+”.
r = +0,9366
b= 21(dấu của ) r rá û
ˆ 10 5y x= +
= + 0,8772r
27
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm định ρ
Q Chúng ta có thể kiểm định để xem liệu sự tương
quan là có ý nghĩa không sử dụng các giả thuyết
H0: ρ = 0 H0: ρ = 0 H0: ρ = 0
Ha: ρ > 0 Ha: ρ < 0 Ha: ρ ≠ 0
Q Thống kê kiểm định là
Q Kiểm định này sẽ cho cùng một kết quả như
kiểm định mức ý nghĩa về hệ số độ dốc β1.
21
2
r
nrt −
−=
28
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các giả định của mô hình
Q Các giả định về số hạng sai số ε
y Sai số ε là một biến ngẫu nhiên với trung bình
là 0.
y Phương sai của ε, biểu thị bằng , bằng nhau
với mọi giá trị của biến độc lập.
y Các giá trị của ε độc lập với nhau.
y Sai số ε là một biến ngẫu nhiên có phân phối
chuẩn.
2
εσ
29
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Biến thiên của các sai số xung quanh
đường thẳng hồi quy
• Các giá trị của Y có phân phối
chuẩn xung quanh đường hồi quy.
• Với mỗi giá trị của X, “mức độ phân
tán” hay phương sai của Y xung
quanh đường hồi quy là bằng nhau.
X1
X2
X
Y
f(e)
Đường hồi quy mẫu
30
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm định ý nghĩa
Q Để kiểm định mối liên hệ hồi quy có ý nghĩa, ta phải
tiến hành kiểm định giả thuyết để quyết định liệu giá
trị của β1 có bằng 0 hay không.
y Nếu β1 = 0, thì X không thể ảnh hưởng đến Y và mô hình
hồi quy rút gọn thành hằng số β0 cộng với sai số ngẫu
nhiên.
Mô hình ban đầu Nếu β1 = 0 Thì
yi = β0 + β1xi + εi yi = β0 + (0)xi + εi yi = β0 + εi
Q Hai kiểm định thường được dùng
Q Cả hai kiểm định đều cần đến một ước lượng của ,
phương sai của ε trong mô hình hồi quy.
2
εσ
Kiểm định t và Kiểm định F
31
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm định ý nghĩa
Q Ước lượng của
y Sai số bình phương trung bình (MSE) cung cấp một ước
lượng của , ký hiệu là .
= MSE = SSE/(n-2)
trong đó:
Q Ước lượng của σε
y Để ước lượng σε ta lấy căn bậc hai của .
y se có được được gọi là sai số chuẩn của ước lượng.
∑∑ −−=−= 2102 )()ˆ(SSE iiii xbbyyy
2
es
2
εσ
2
εσ 2es
SSEMSE
2e
s
n
= = −
2
εσ
32
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm định ý nghĩa
Q Sai số chuẩn của hệ số góc
Q Sai số chuẩn của tung độ gốc
( )0
2
2
1
1
b e n
i
i
xs s
n x x
=
= +
−∑
( )1 2
1
1
b e n
i
i
s s
x x
=
=
−∑
33
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Các giả thuyết:
H0: βi ≥ 0 H0: βi ≤ 0 H0: βi = 0
Ha: βi 0 Ha: βi ≠ 0
Q Thống kê kiểm định:
Kiểm định t được sử dụng với df = n – 2
Q Quy tắc bác bỏ:
Bác bỏ H0 nếu
t tα; n-2 |t| > tα/2; n-2
Kiểm định ý nghĩa: Kiểm định t
ib
i
s
bt 0−=
34
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Kiểm định t
y Các giả thuyết: H0: β1 = 0
Ha: β1 ≠ 0
y Thống kê kiểm định
t = 5/1,08 = 4,63
y Quy tắc bác bỏ
Với α = 0,05 và df = 3, t0,025;3 = 3,182
Bác bỏ H0 nếu t > 3,182
y Kết luận
Bác bỏ H0
Ví dụ: Đợt bán xôn của Reed Auto
35
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Khoảng tin cậy cho βi
α
α αβ
−
− −
±
− ≤ ≤ +
2; 2
2; 2 2; 2
i
i i
i n b
i n b i i n b
b t s
hay
b t s b t s
36
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Khoảng tin cậy cho β1
Q Ta có thể dùng khoảng tin cậy 95% của β1 để
kiểm định các giả thuyết vừa sử dụng trong kiểm
định t.
Q H0 bị bác bỏ nếu giá trị giả thuyết của β1 không
bao gồm trong khoảng tin cậy của β1.
37
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Đợt bán xôn của Reed Auto
Q Quy tắc bác bỏ
Bác bỏ H0 nếu 0 không thuộc khoảng tin cậy
cho β1.
Q Khoảng tin cậy 95% cho β1
= 5 +/- 3,182(1,08) = 5 +/- 3,44
hay từ 1,56 đến 8,44
Q Kết luận
Bác bỏ H0
11 2; 2n b
b t sα −±
38
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm định ý nghĩa: Kiểm định F
Q Các giả thuyết
H0: β1 = 0
Ha: β1 ≠ 0
Q Thống kê kiểm định
F = MSR/MSE
Q Quy tắc bác bỏ
Bác bỏ H0 nếu F > Fα;1;n-2
trong đó Fα;1;n-2 dựa vào phân phối F với 1 bậc tự
do trên tử số và n - 2 bậc tự do dưới mẫu số.
39
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Kiểm định F
y Các giả thuyết H0: β1 = 0
Ha: β1 = 0
y Thống kê kiểm định
F = MSR/MSE = 100/4,667 = 21,43
y Quy tắc bác bỏ
Với α = 0,05 và df = 1; 3: F0,05; 1; 3 = 10,13
Bác bỏ H0 nếu F > 10,13.
y Kết luận:
Bác bỏ H0. Có đủ chứng cứ bằng thống kê để kết
luận rằng có một mối liên hệ có ý nghĩa giữa số lần
quảng cáo trên TV và số lượng xe ô tô bán được.
Ví dụ: Đợt bán xôn của Reed Auto
40
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Một vài cảnh báo về việc
diễn giải kết quả của các kiểm định ý nghĩa
Q Việc bác bỏ H0: β1 = 0 và kết luận rằng mối liên
hệ giữa x và y là có ý nghĩa không cho phép ta
kết luận là có mối liên hệ nhân quả giữa x và y.
Q Chỉ vì ta có thể bác bỏ H0: β1 = 0 và chứng tỏ là
có ý nghĩa thống kê không cho phép ta kết luận
có mối liên hệ tuyến tính giữa x và y.
41
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Ước lượng khoảng tin cậy của E(yp)
Q Ước lượng khoảng dự báo của yp
trong đó: hệ số tin cậy là 1 - α và
tα/2; n-2 dựa trên phân phối t với n - 2 df
Dùng phương trình hồi quy ước lượng
để ước lượng và dự báo
ˆ2; 2ˆ α −± pp n yy t s
2; 2ˆ p n indy t sα −±
42
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Khoảng dự báo cho giá trị trung bình của y,
với xp đã cho
Ước lượng khoảng dự báo cho
giá trị trung bình của y với một giá riêng biệt xp
Kích thước của khoảng này dao động
theo khoảng cách tính từ trung bình, x
2
/ 2, 2 2
( )1ˆ
( )
p
p n e
x x
y t s
n x xα −
−± + −∑
43
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Khoảng tin cậy cho một giá trị cá biệt của y,
với xp đã cho
Ước lượng khoảng tin cậy cho một
giá trị cá biệt của y với một giá riêng biệt xp
Số hạng cộng thêm này làm tăng thêm bề
rộng khoảng nhằm phản ánh sự không chắc
chắc gia tăng đối với một trường hợp riêng lẻ.
2
/ 2, 2 2
( )1ˆ 1
( )
p
p n e
x x
y t s
n x xα −
−± + + −∑
44
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các ước lượng khoảng
với các giá trị khác nhau của x
y
x
Khoảng dự báo cho
một giá trị cá biệt
của y, với xp đã cho
xp
y = b 0 +
b 1x∧
x
Khoảng tin cậy
cho giá trị trung
bình của y, với xp
đã cho
45
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Ước lượng điểm
Nếu có 3 lần quảng cáo trên TV được tổ chức trước một
đợt bán xôn (xp = 3), ta hy vọng số lượng xe ô tô bán
được trung bình sẽ là:
yp = 10 + 5(3) = 25 xe
Q Khoảng tin cậy cho E(yp)
Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô
tô bán được trung bình khi có 3 lần quảng cáo trên TV
được tổ chức là:
25 + 4,61 = 20,39 tới 29,61 xe
Q Dự báo khoảng cho yp
Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô
tô bán được trong một tuầøn đặc biệt khi có 3 lần quảng
cáo trên TV được tổ chức là:
25 + 8,28 = từ 16,72 đến 33,28 xe
^
Ví dụ: Đợt bán xôn của Reed Auto
46
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Mặc dù sự xấp xỉ
tuyến tính được
đưa ra bởi là tốt
trong vùng giá trị
x quan sát được
trong mẫu, nó trở
nên xấu với các
giá trị x nằm
ngoài vùng đó.
x
y
Giá trị x
nhỏ nhất
Giá trị x
lớn nhất
Mối quan hệ
thực sự
Vùng giá trị x
quan sát được
Ví dụ về một sự xấp xỉ tuyến tính của một
mối liên hệ phi tuyến
47
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Diễn giải các hệ số
Q Hệ số góc hay độ dốc (b1)
y Xét các giá trị của x nằm trong vùng quan sát, khi x
tăng hay giảm 1 đơn vị thì y tăng hay giảm (nếu b1 +)
hay giảm hay tăng (nếu b1 -) khoảng b1 đơn vị.
Q Tung độ gốc hay hệ số chặn trục tung (b0) cho ta biết
giá trị trung bình của y khi x = 0.
y Trên thực tế, x có thể nhận giá trị 0 không? và
y 0 có phải là một trong các giá trị quan sát của x
không?
y Khi điều kiện trên không xảy ra thì sự diễn giải ý
nghĩa của b0 không hợp lý lắm.
48
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích phần dư
Q Mục đích
y Kiểm tra giả định tuyến tính
y Kiểm tra phương sai không thay đổi với mọi
mức độ của x
y Đánh giá giả định phân phối chuẩn của phần dư
y Kiểm tra tính độc lập của phần dư
Q Phân tích các phần dư bằng đồ thị
y Có thể vẽ đồ thị các phần dư theo x hoặc theo y
y Có thể tạo các biểu đồ (histogram) phần dư để
kiểm tra tính chuẩn
^
49
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Nếu giả định về số hạng sai số ε có vẻ đáng ngờ,
các kiểm định giả thuyết về ý nghĩa của mối liên
hệ hồi quy và kết quả ước lượng khoảng có thể
không có căn cứ vững chắc.
Q Các phần dư cung cấp thông tin tốt nhất về ε.
Q Phần lớn phân tích phần dư dựa trên việc xem
xét các biểu đồ (graphical plots).
Phân tích phần dư
50
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích phần dư cho tính tuyến tính
(Linearity)
Phi tuyến tính Tuyến tính9
x
P
h
a
à
n
d
ư
x
y
x
y
x
P
h
a
à
n
d
ư
51
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm tra giả định phương sai không đổi
Q Nếu giả định phương sai của ε bằng nhau với mọi giá trị
của x là đúng, và mô hình hồi quy được giả định là một
sự mô tả hay biểu diễn thích đáng mối liên hệ giữa các
biến, thì
Biểu đồ phần dư sẽ đem lại một ấn tượng
chung về một dải các điểm nằm ngang
52
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích phần dư cho phương sai không đổi
Phương sai thay đổi 9 Phương sai không đổi
x x
y
x x
y
P
h
a
à
n
d
ư
P
h
a
à
n
d
ư
53
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm tra giả định phương sai không đổi
Q Nếu với nhiều biến giải thích ta có thể vẽ phần dư
theo từng biến giải thích mà ta nghi ngờ gây ra hiện
tượng phương sai thay đổi hoặc tốt hơn là vẽ phần
dư theo y là giá trị ước lượng được từ mô hình.
Q Trêân thực tế không có một phương pháp chắc chắc
nào để phát hiện ra hiện tượng phương sai thay đổi
mà chỉ có thể dùng vài công cụ để chẩn đoán thôi.
Để biết thêm chi tiết, có thể đọc Vũ Thiếu, Nguyễn
Quang Dong và Nguyễn Khắc Minh, Kinh tế lượng,
Nxb. Khoa học và Kỹ thuật, Hà Nội, 2001.
^
54
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm tra giả định phân phối chuẩn của phần dư
Q Có hai cách làm:
y Sử dụng biểu đồ phần dư chuẩn hoá theo x
y Sử dụng đồ thị xác suất chuẩn (Normal
probability plot)
55
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Q Phần dư chuẩn hoá cho quan sát i
trong đó:
Các phần dư chuẩn hoá
ˆ
ˆ
i i
i i
y y
y y
s −
−
ˆ 1i i iy ys s h− = −
2
2
( )1
( )
i
i
i
x xh
n x x
−= + −∑
56
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Biểu đồ phần dư chuẩn hoá
Q Biểu đồ phần dư chuẩn hoá có thể giúp ta hiểu rõ
giả định số hạng sai số ε có phân phối chuẩn.
Q Nếu giả định này được thoả mãn thì phân phối của
các phần dư chuẩn hoá sẽ có vẻ bắt nguồn từ hay
lấy từ một phân phối xác suất chuẩn tắc (vì s được
dùng thay cho σ, phân phối xác suất của các phần
dư chuẩn hoá về mặt kỹ thuật là không chuẩn. Tuy
nhiên, trong hầu hết các nghiên cứu hồi quy, cỡ
mẫu thường đủ lớn để một sự xấp xỉ chuẩn là rất
tốt). Do vậy, khi xem xét biểu đồ phần dư chuẩn
hoá, chúng ta kỳ vọng nhìn thấy khoảng 95% các
phần dư chuẩn hoá nằm trong khoảng từ -2 đến +2.
57
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Biểu đồ phần dư chuẩn hoá
Q Tất cả các phần dư chuẩn hoá khoảng từ –1,5
đến +1,5 cho biết không có lý do để nghi ngờ giả
định là ε có phân phối chuẩn.
58
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích phần dư cho
tính độc lập
Q Thống kê Durbin-Watson
y Sử dụng khi dữ liệu được thu thập theo thời gian nhằm
phát hiện có tự tương quan (các phần dư ở một thời đoạn
có liên quan với các phần dư ở một thời đoạn khác)
y Đo lường sự vi phạm giả định độc lập
2
1
2
2
1
( )
n
i i
i
n
i
i
e e
D
e
−
=
=
−
=
∑
∑
Nên gần bằng 2.
Nếu không, hãy xem xét mô
hình để tìm tự tương quan.
59
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Có được các giá trị tới hạn của
thống kê Durbin-Watson
Bảng 4.6 Tìm các giá trị tới hạn của thống kê Durbin-Watson
1,540,981,371,1016
1,540,951,361,0815
dUdLdUdLn
p = 2p = 1
α = 0,05
60
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Sử dụng
thống kê Durbin-Watson
Chấp nhận H0
(không có tự tương quan)
: Không có tự tương quan (các số hạng sai số độc lập với nhau)
: Có tự tương quan (các số hạng sai số không độc lập với nhau)
0H
1H
0 42dL 4-dLdU 4-dU
Bác bỏ H0
(tự tương quan
dương)
Không quyết định Bác bỏ H0
(tự tương quan
âm)
61
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phân tích phần dư cho
tính độc lập
Không độc lập Độc lập9
e e
Thời
gian
Thời
gian
Phần dư được vẽ đồ thị theo thời gian để phát hiện tự tương quan
Không có mẫu hình
riêng biệt nào
Mẫu hình chu kỳ
Phương pháp đồ thị
62
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Bốn tập dữ liệu khác nhau có kết quả hồi quy
như nhau
86,8955,7354,7455,68
87,9176,4277,2674,82
85,56128,15129,131210,84
1912,5045,3943,1044,26
85,2566,0866,1367,24
87,04148,84148,10149,96
88,47117,81119,26118,33
88,8497,1198,7798,81
87,711312,74138,74137,58
85,7686,7788,1486,95
86,58107,46109,14108,04
xyxyxyxy
Tập DTập CTập BTập A
63
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các biểu đồ phân tán của bốn tập dữ liệu xy có các đặc tính
thống kê rất giống nhau nhưng trông hoàn toàn khác nhau
y = 3 + 0 ,5 x
0
2
4
6
8
1 0
1 2
0 2 4 6 8 1 0 1 2 1 4
y = 3 + 0 ,5 X
0
2
4
6
8
1 0
1 2
0 2 4 6 8 1 0 1 2 1 4
y = 3 + 0 ,5 X
0
2
4
6
8
1 0
1 2
1 4
0 2 4 6 8 1 0 1 2 1 4
y = 3 + 0 , 5 x
0
2
4
6
8
1 0
1 2
1 4
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8
64
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các phần tử bất thường và các quan sát
có ảnh hưởng
Q Dò tìm các phần tử bất thường
y Một phần tử bất thường là một quan sát khác
thường khi được so sánh với dữ liệu khác.
y Minitab xếp một quan sát vào loại phần tử bất
thường nếu giá trị phần dư chuẩn hoá của nó < -
2 hay > +2.
y Quy tắc phần dư chuẩn hoá này đôi khi không
nhận ra một quan sát lớn khác thường là một
phần tử bất thường.
y Khiếm khuyết của quy tắc này có thể vượt qua
bằng cách dùng các phần dư xoá bỏ student hoá.
y |Phần dư xoá bỏ student hoá thứ i| sẽ lớn hơn
|phần dư chuẩn hoá thứ i|.
Các file đính kèm theo tài liệu này:
- chuong_4_hoi_quy_tuyen_tinh_don_4091.pdf