Bài giảng Hồi quy tuyến tính đơn giản

Các phần tửbất thườngvà các quan sát có ảnh hưởng Dò tìm các phần tử bất thường - Một phần tử bất thườnglà một quan sát khác thường khi được so sánh với dữ liệu khác. - Minitab xếp một quan sát vào loại phần tử bất thường nếu giá trị phần dư chuẩn hoá của nó < -2 hay > +2. - Quy tắc phần dư chuẩn hoá này đôi khi không nhận ra một quan sát lớn khác thường là một phần tử bất thường. - Khiếm khuyết của quy tắc này có thể vượt qua bằng cách dùng các phần dư xoá bỏ student hoá. - |Phần dư xoá bỏ student hoá thứ i| sẽ lớn hơn |phần dư chuẩn hoá thứ i|.

pdf64 trang | Chia sẻ: maiphuongtl | Lượt xem: 7173 | Lượt tải: 5download
Bạn đang xem trước 20 trang tài liệu Bài giảng Hồi quy tuyến tính đơn giản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Chương 4 Hồi quy tuyến tính đơn giản Q Mô hình hồi quy tuyến tính đơn giản Q Phương pháp bình phương bé nhất Q Hệ số xác định Q Các giả định của mô hình Q Kiểm định ý nghĩa Q Công cụ hồi quy của Excel Q Dùng phương trình hồi quy ước lượng để ước lượng và dự đoán Q Phân tích phần dư: Xác nhận tính hợp lệ của các giả định của mô hình Q Các phần tử bất thường và các quan sát có ảnh hưởng 2 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích hồi quy Q Phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc hay biến được giải thích) vào một hay nhiều biến khác (được gọi là (các) biến độc lập hay giải thích) với ý tưởng là ước lượng hoặc dự báo biến phụ thuộc trên cơ sở giá trị đã cho của (các) biến độc lập. Q Biến phụ thuộc là biến ngẫu nhiên, có quy luật phân phối xác suất Q (Các) biến độc lập không phải là biến ngẫu nhiên, giá trị của chúng đã được cho trước. 3 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Mối liên hệ tuyến tính Lượng cầu về thịt bò, y ∈ (1)Giá thịt bò (x1) (2)Giá của mặt hàng thay thế (x2) (3)Thu nhập của người tiêu dùng (x3) (4)Tập quán, thị hiệu, sở thích của người tiêu dùng (x4) (5)Quy mô thị trường (x5) Biểu diễn dưới dạng toán học, y = f(x1, x2, x3, x4, x5) + ε 4 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Mối liên hệ tuyến tính (tiếp theo) Nếu y phụ thuộc vào các x theo dạng tuyến tính (dạng đường thẳng) Nếu y phụ thuộc vào các x theo dạng phi tuyến tính (dạng đường cong) 0 1 1 2 2 3 3 4 4 5 5y x x x x xβ β β β β β ε= + + + + + + 0 1 1 2 2 3 3 4 4 5 5y x x x x xβ β β β β β ε≠ + + + + + + 5 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Mô hình hồi quy tuyến tính đơn giản Q Mô hình hồi quy tuyến tính đơn giản y = β0 + β1x + ε Q Phương trình hồi quy tuyến tính đơn giản E(y) = β0 + β1x Q Phương trình hồi quy tuyến tính đơn giản ước lượng y = b0 + b1x ^ 6 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn 1 Mô tả phương trình hồi quy tuyến tính đơn giản Phương trình hồi quy tuyến tính đơn giản chỉ mối liên hệ tuyến tính chính xác giữa giá trị kỳ vọng hay giá trị trung bình của y, biến phụ thuộc, và x, biến độc lập hay biến dự báo: E[yi]=β0 + β1 xi Các giá trị quan sát thực tế của y khác với giá trị kỳ vọng bởi một sai số không giải thích được hay sai số ngẫu nhiên: Yi = E[yi] + εi = β0 + β1 xi + εi X Y E[y]=β0 + β1 x Xi } β1 = Hệ số góc β0 = Tung độ gốc Yi {Sai số:εi Đồ thị hồi quy 7 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Quy trình ước lượng trong hồi quy tuyến tính đơn giản Mô hình hồi quy y = β0 + β1x +ε Phương trình hồi quy E(y) = β0 + β1x Các tham số không biếtβ0, β1 Dữ liệu mẫu: x y x1 y1 . . . . xn yn b0 và b1 đưa ra các ước lượng cho β0 và β1 Phương trình hồi quy ước lượng Các số thống kê mẫu b0, b1 0 1yˆ b b x= + 8 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Tìm một đường thẳng “thích hợp” nhất X Y Dữ liệu X Y Ba sai số so với giá trị tính theo đường thẳng thích hợp X Y Ba sai số so với giá trị tính theo đường thẳng bình phương bé nhất X Các sai số so với giá trị tính theo đường thẳng bình phương bé nhất được cực tiểu hoá 9 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các sai số trong hồi quy . {ˆi i ie y y= − y x iy ˆiy xi ˆ :iy Sai số Điểm dữ liệu quan sát Giá trị dự báo của y ứng với xi Đường hồi quy thích hợp nhất 0 1ˆ xy b b= + 10 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phương pháp bình phương bé nhất Q Tiêu chuẩn bình phương bé nhất trong đó: yi = giá trị quan sát của biến phụ thuộc cho quan sát thứ i yi = giá trị ước lượng của biến phụ thuộc cho quan sát thứ i ^ n n 2 2 i i i=1 i=1 ˆmin SSE = e (y )iy= −∑ ∑ 11 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phương pháp bình phương bé nhất b0SSE b1 b0 b1 Ở điểm này SSE cực tiểu đối với b0 và b1 0 1 1 1 2 0 1 1 1 1 n n i i i i n n n i i i i i i i y nb b x x y b x b x = = = = = = + = + ∑ ∑ ∑ ∑ ∑ 12 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Hệ số góc của phương trình hồi quy ước lượng Q Hệ số chặn của phương trình hồi quy ước lượng b0 = y - b1x hay b0 = (Σyi / n) - b1(Σxi / n) trong đó: xi = trị số của biến độc lập với quan sát thứ i yi = trị số của biến phụ thuộc với quan sát thứ i x = giá trị trung bình của biến độc lập y = giá trị trung bình của biến phụ thuộc n = tổng số quan sát __ 1 2 2 ( ) ( ) i i i i i i n x y x y b n x x −= − ∑ ∑ ∑∑ ∑ _ _ Phương pháp bình phương bé nhất ∑ − −= ∑ −1 2 ( )( ) ( ) i i i x x y yb x x hay 13 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn x i y i x i 2 y i 2 x iy i x 1 y 1 x 1 2 y 1 2 x 1y 1 x 2 y 2 x 2 2 y 2 2 x 2y 2 : : : : : x n y n x n 2 y n 2 x ny n Σx i Σy i Σx i 2 Σy i 2 Σx iy i Bảng tính toán 14 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Ví dụ: Đợt bán xôn của Reed Auto Q Hồi quy tuyến tính đơn giản Reed Auto định kỳ có một đợt bán xôn đặc biệt kéo dài suốt một tuần. Như là một phần của chiến dịch quảng cáo Reed thực hiện một hoặc một số quảng cáo trên TV trong thời gian cuối tuần trước đợt bán xôn. Dữ liệu từ một mẫu gồm 5 đợt bán xôn trước đây được cho dưới đây. 15 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Ví dụ: Đợt bán xôn của Reed Auto Số lần quảng cáo Số lượng xe ô tô trên TV bán được 1 14 3 24 2 18 1 17 3 27 16 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Hệ số góc (hay độ dốc) của phương trình hồi quy ước lượng Q Hệ số chặn (hay tung độ gốc) của phương trình hồi quy ước lượng b0 = 100/5 - 5(10/5) = 10 Q Phương trình hồi quy ước lượng y = 10 + 5x^ Ví dụ: Đợt bán xôn của Reed Auto −= =−1 2 5(220) (10)(100) 5 5(24) (10) b 17 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Dùng CASIO fx-500MS MODE 3 (Reg) 1 (Lin) [trên màn hình hiện REG] SHIFT MODE 1 (Scl) = [xoá bộ nhớ] (Nhập dữ liệu) 1 14 M+ [trên màn hình nhảy n = 1] 3 24 M+ [trên màn hình nhảy n = 2] 2 18 M+ [trên màn hình nhảy n = 3] 1 17 M+ [trên màn hình nhảy n = 4] 3 27 M+ [trên màn hình nhảy n = 5] AC SHIFT 2   1 = [cho b0 = 10] SHIFT 2   2 = [cho b1 = 5] SHIFT 2   3 = [cho r = 0,936585811] 18 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Dùng CASIO fx-570MS MODE MODE 2 (Reg) 1 (Lin) SHIFT MODE 1 (Scl) = [xoá bộ nhớ] (Nhập dữ liệu:) 1 14 M+ [trên màn hình nhảy n = 1] 3 24 M+ [trên màn hình nhảy n = 2] 2 18 M+ [trên màn hình nhảy n = 3] 1 17 M+ [trên màn hình nhảy n = 4] 3 27 M+ [trên màn hình nhảy n = 5] AC SHIFT 2   1 = [cho b0 = 10] SHIFT 2   2 = [cho b1 = 5] SHIFT 2   3 = [cho r = 0,936585811] 19 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Dùng CASIO fx-500ES SHIFT 9 3 = AC [xoá bộ nhớ] SHIFT MODE ∇ 4 Frequency? 1: ON 2: OFF MODE 2 (STAT) 2: A+BX [hồi quy tuyến tính] (Nhập dữ liệu) 20 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Dùng CASIO fx-500ES (Nhập dữ liệu) 1 = 3 = 2 = 1 = 3 =   14 = 24 = 18 = 17 = 27 = ON SHIFT 1 7 1:A ; 2:B ; 3: r ; 4: x mũ ; 5: y mũ SHIFT MODE 6 Fix 0~9? (định số số lẻ) Với CASIO fx-570ES: MODE 3 (STAT) 2: A+BX [hồi quy tuyến tính] 21 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Hệ số xác định, r2, là một tiêu chuẩn mô tả để đánh giá cường độ của mối liên hệ hồi quy, một tiêu chuẩn đánh giá đường hồi quy phù hợp với dữ liệu tốt tới mức độ nào. . { Y X Y Y Y X { Tổng độ lệch Độ lệch được giải thích Độ lệch không được giải thích SST SSE SST SSRr SSR+ SSE = SST )yy()y(y)y(y −== ∑ −+∑ −=∑ − −+−=− 1 ˆˆ 2 222 ˆˆ quy) (Hồi dư) (Phần thích giải được thích giải được lệch độ lệch ộ Đ khônglệch Độ= Tổng )yy( )y(y )y(y Tỷ lệ phần trăm của toàn bộ biến thiên được giải thích bởi hồi quy. Hồi quy tốt tới mức độ nào? 22 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Hồi quy tốt tới mức độ nào? Q SST = tổng các độ lệch bình phương toàn bộ Q SSR = tổng các độ lệch bình phương do hồi quy Q SSE = tổng các độ lệch bình phương do phần dư ( ) ( ) 2 2 2= − = − ∑∑ ∑i ySST y y y n ( )2 1ˆi x ySSR y y b xy n Σ Σ⎛ ⎞= − = Σ −⎜ ⎟⎝ ⎠∑ ( )2 2 1 0ˆi iSSE y y y b xy b y= − = Σ − Σ − Σ∑ 23 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Hệ số xác định r2 = SSR/SST = 100/114 = 0,8772 Mối liên hệ hồi quy là rất mạnh vì 88% phần biến thiên trong số xe ô tô đã bán ra có thể được giải thích bởi mối liên hệ tuyến tính giữa số lần quảng cáo trên TV và số xe ô tô bán được. Ví dụ: Đợt bán xôn của Reed Auto 24 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Hệ số tương quan Q Hệ số tương quan mẫu trong đó: b1 = hệ số góc phương trình hồi quy ước lượng b= 21(dấu của ) r rá û b= 1(dấu của ) Hệ số xác địnhr á û ä á ù xbby 10ˆ += 25 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các giá trị khác nhau của hệ số tương quan 26 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Ví dụ: Đợt bán xôn của Reed Auto Q Hệ số tương quan mẫu Dấu của b1 trong phương trình là “+”. r = +0,9366 b= 21(dấu của ) r rá û ˆ 10 5y x= + = + 0,8772r 27 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm định ρ Q Chúng ta có thể kiểm định để xem liệu sự tương quan là có ý nghĩa không sử dụng các giả thuyết H0: ρ = 0 H0: ρ = 0 H0: ρ = 0 Ha: ρ > 0 Ha: ρ < 0 Ha: ρ ≠ 0 Q Thống kê kiểm định là Q Kiểm định này sẽ cho cùng một kết quả như kiểm định mức ý nghĩa về hệ số độ dốc β1. 21 2 r nrt − −= 28 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các giả định của mô hình Q Các giả định về số hạng sai số ε y Sai số ε là một biến ngẫu nhiên với trung bình là 0. y Phương sai của ε, biểu thị bằng , bằng nhau với mọi giá trị của biến độc lập. y Các giá trị của ε độc lập với nhau. y Sai số ε là một biến ngẫu nhiên có phân phối chuẩn. 2 εσ 29 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Biến thiên của các sai số xung quanh đường thẳng hồi quy • Các giá trị của Y có phân phối chuẩn xung quanh đường hồi quy. • Với mỗi giá trị của X, “mức độ phân tán” hay phương sai của Y xung quanh đường hồi quy là bằng nhau. X1 X2 X Y f(e) Đường hồi quy mẫu 30 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm định ý nghĩa Q Để kiểm định mối liên hệ hồi quy có ý nghĩa, ta phải tiến hành kiểm định giả thuyết để quyết định liệu giá trị của β1 có bằng 0 hay không. y Nếu β1 = 0, thì X không thể ảnh hưởng đến Y và mô hình hồi quy rút gọn thành hằng số β0 cộng với sai số ngẫu nhiên. Mô hình ban đầu Nếu β1 = 0 Thì yi = β0 + β1xi + εi yi = β0 + (0)xi + εi yi = β0 + εi Q Hai kiểm định thường được dùng Q Cả hai kiểm định đều cần đến một ước lượng của , phương sai của ε trong mô hình hồi quy. 2 εσ Kiểm định t và Kiểm định F 31 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm định ý nghĩa Q Ước lượng của y Sai số bình phương trung bình (MSE) cung cấp một ước lượng của , ký hiệu là . = MSE = SSE/(n-2) trong đó: Q Ước lượng của σε y Để ước lượng σε ta lấy căn bậc hai của . y se có được được gọi là sai số chuẩn của ước lượng. ∑∑ −−=−= 2102 )()ˆ(SSE iiii xbbyyy 2 es 2 εσ 2 εσ 2es SSEMSE 2e s n = = − 2 εσ 32 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm định ý nghĩa Q Sai số chuẩn của hệ số góc Q Sai số chuẩn của tung độ gốc ( )0 2 2 1 1 b e n i i xs s n x x = = + −∑ ( )1 2 1 1 b e n i i s s x x = = −∑ 33 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Các giả thuyết: H0: βi ≥ 0 H0: βi ≤ 0 H0: βi = 0 Ha: βi 0 Ha: βi ≠ 0 Q Thống kê kiểm định: Kiểm định t được sử dụng với df = n – 2 Q Quy tắc bác bỏ: Bác bỏ H0 nếu t tα; n-2 |t| > tα/2; n-2 Kiểm định ý nghĩa: Kiểm định t ib i s bt 0−= 34 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Kiểm định t y Các giả thuyết: H0: β1 = 0 Ha: β1 ≠ 0 y Thống kê kiểm định t = 5/1,08 = 4,63 y Quy tắc bác bỏ Với α = 0,05 và df = 3, t0,025;3 = 3,182 Bác bỏ H0 nếu t > 3,182 y Kết luận Bác bỏ H0 Ví dụ: Đợt bán xôn của Reed Auto 35 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Khoảng tin cậy cho βi α α αβ − − − ± − ≤ ≤ + 2; 2 2; 2 2; 2 i i i i n b i n b i i n b b t s hay b t s b t s 36 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Khoảng tin cậy cho β1 Q Ta có thể dùng khoảng tin cậy 95% của β1 để kiểm định các giả thuyết vừa sử dụng trong kiểm định t. Q H0 bị bác bỏ nếu giá trị giả thuyết của β1 không bao gồm trong khoảng tin cậy của β1. 37 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Ví dụ: Đợt bán xôn của Reed Auto Q Quy tắc bác bỏ Bác bỏ H0 nếu 0 không thuộc khoảng tin cậy cho β1. Q Khoảng tin cậy 95% cho β1 = 5 +/- 3,182(1,08) = 5 +/- 3,44 hay từ 1,56 đến 8,44 Q Kết luận Bác bỏ H0 11 2; 2n b b t sα −± 38 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm định ý nghĩa: Kiểm định F Q Các giả thuyết H0: β1 = 0 Ha: β1 ≠ 0 Q Thống kê kiểm định F = MSR/MSE Q Quy tắc bác bỏ Bác bỏ H0 nếu F > Fα;1;n-2 trong đó Fα;1;n-2 dựa vào phân phối F với 1 bậc tự do trên tử số và n - 2 bậc tự do dưới mẫu số. 39 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Kiểm định F y Các giả thuyết H0: β1 = 0 Ha: β1 = 0 y Thống kê kiểm định F = MSR/MSE = 100/4,667 = 21,43 y Quy tắc bác bỏ Với α = 0,05 và df = 1; 3: F0,05; 1; 3 = 10,13 Bác bỏ H0 nếu F > 10,13. y Kết luận: Bác bỏ H0. Có đủ chứng cứ bằng thống kê để kết luận rằng có một mối liên hệ có ý nghĩa giữa số lần quảng cáo trên TV và số lượng xe ô tô bán được. Ví dụ: Đợt bán xôn của Reed Auto 40 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Một vài cảnh báo về việc diễn giải kết quả của các kiểm định ý nghĩa Q Việc bác bỏ H0: β1 = 0 và kết luận rằng mối liên hệ giữa x và y là có ý nghĩa không cho phép ta kết luận là có mối liên hệ nhân quả giữa x và y. Q Chỉ vì ta có thể bác bỏ H0: β1 = 0 và chứng tỏ là có ý nghĩa thống kê không cho phép ta kết luận có mối liên hệ tuyến tính giữa x và y. 41 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Ước lượng khoảng tin cậy của E(yp) Q Ước lượng khoảng dự báo của yp trong đó: hệ số tin cậy là 1 - α và tα/2; n-2 dựa trên phân phối t với n - 2 df Dùng phương trình hồi quy ước lượng để ước lượng và dự báo ˆ2; 2ˆ α −± pp n yy t s 2; 2ˆ p n indy t sα −± 42 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Khoảng dự báo cho giá trị trung bình của y, với xp đã cho Ước lượng khoảng dự báo cho giá trị trung bình của y với một giá riêng biệt xp Kích thước của khoảng này dao động theo khoảng cách tính từ trung bình, x 2 / 2, 2 2 ( )1ˆ ( ) p p n e x x y t s n x xα − −± + −∑ 43 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Khoảng tin cậy cho một giá trị cá biệt của y, với xp đã cho Ước lượng khoảng tin cậy cho một giá trị cá biệt của y với một giá riêng biệt xp Số hạng cộng thêm này làm tăng thêm bề rộng khoảng nhằm phản ánh sự không chắc chắc gia tăng đối với một trường hợp riêng lẻ. 2 / 2, 2 2 ( )1ˆ 1 ( ) p p n e x x y t s n x xα − −± + + −∑ 44 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các ước lượng khoảng với các giá trị khác nhau của x y x Khoảng dự báo cho một giá trị cá biệt của y, với xp đã cho xp y = b 0 + b 1x∧ x Khoảng tin cậy cho giá trị trung bình của y, với xp đã cho 45 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Ước lượng điểm Nếu có 3 lần quảng cáo trên TV được tổ chức trước một đợt bán xôn (xp = 3), ta hy vọng số lượng xe ô tô bán được trung bình sẽ là: yp = 10 + 5(3) = 25 xe Q Khoảng tin cậy cho E(yp) Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô tô bán được trung bình khi có 3 lần quảng cáo trên TV được tổ chức là: 25 + 4,61 = 20,39 tới 29,61 xe Q Dự báo khoảng cho yp Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô tô bán được trong một tuầøn đặc biệt khi có 3 lần quảng cáo trên TV được tổ chức là: 25 + 8,28 = từ 16,72 đến 33,28 xe ^ Ví dụ: Đợt bán xôn của Reed Auto 46 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Mặc dù sự xấp xỉ tuyến tính được đưa ra bởi là tốt trong vùng giá trị x quan sát được trong mẫu, nó trở nên xấu với các giá trị x nằm ngoài vùng đó. x y Giá trị x nhỏ nhất Giá trị x lớn nhất Mối quan hệ thực sự Vùng giá trị x quan sát được Ví dụ về một sự xấp xỉ tuyến tính của một mối liên hệ phi tuyến 47 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Diễn giải các hệ số Q Hệ số góc hay độ dốc (b1) y Xét các giá trị của x nằm trong vùng quan sát, khi x tăng hay giảm 1 đơn vị thì y tăng hay giảm (nếu b1 +) hay giảm hay tăng (nếu b1 -) khoảng b1 đơn vị. Q Tung độ gốc hay hệ số chặn trục tung (b0) cho ta biết giá trị trung bình của y khi x = 0. y Trên thực tế, x có thể nhận giá trị 0 không? và y 0 có phải là một trong các giá trị quan sát của x không? y Khi điều kiện trên không xảy ra thì sự diễn giải ý nghĩa của b0 không hợp lý lắm. 48 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích phần dư Q Mục đích y Kiểm tra giả định tuyến tính y Kiểm tra phương sai không thay đổi với mọi mức độ của x y Đánh giá giả định phân phối chuẩn của phần dư y Kiểm tra tính độc lập của phần dư Q Phân tích các phần dư bằng đồ thị y Có thể vẽ đồ thị các phần dư theo x hoặc theo y y Có thể tạo các biểu đồ (histogram) phần dư để kiểm tra tính chuẩn ^ 49 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Nếu giả định về số hạng sai số ε có vẻ đáng ngờ, các kiểm định giả thuyết về ý nghĩa của mối liên hệ hồi quy và kết quả ước lượng khoảng có thể không có căn cứ vững chắc. Q Các phần dư cung cấp thông tin tốt nhất về ε. Q Phần lớn phân tích phần dư dựa trên việc xem xét các biểu đồ (graphical plots). Phân tích phần dư 50 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích phần dư cho tính tuyến tính (Linearity) Phi tuyến tính Tuyến tính9 x P h a à n d ư x y x y x P h a à n d ư 51 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm tra giả định phương sai không đổi Q Nếu giả định phương sai của ε bằng nhau với mọi giá trị của x là đúng, và mô hình hồi quy được giả định là một sự mô tả hay biểu diễn thích đáng mối liên hệ giữa các biến, thì Biểu đồ phần dư sẽ đem lại một ấn tượng chung về một dải các điểm nằm ngang 52 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích phần dư cho phương sai không đổi Phương sai thay đổi 9 Phương sai không đổi x x y x x y P h a à n d ư P h a à n d ư 53 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm tra giả định phương sai không đổi Q Nếu với nhiều biến giải thích ta có thể vẽ phần dư theo từng biến giải thích mà ta nghi ngờ gây ra hiện tượng phương sai thay đổi hoặc tốt hơn là vẽ phần dư theo y là giá trị ước lượng được từ mô hình. Q Trêân thực tế không có một phương pháp chắc chắc nào để phát hiện ra hiện tượng phương sai thay đổi mà chỉ có thể dùng vài công cụ để chẩn đoán thôi. Để biết thêm chi tiết, có thể đọc Vũ Thiếu, Nguyễn Quang Dong và Nguyễn Khắc Minh, Kinh tế lượng, Nxb. Khoa học và Kỹ thuật, Hà Nội, 2001. ^ 54 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Kiểm tra giả định phân phối chuẩn của phần dư Q Có hai cách làm: y Sử dụng biểu đồ phần dư chuẩn hoá theo x y Sử dụng đồ thị xác suất chuẩn (Normal probability plot) 55 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Q Phần dư chuẩn hoá cho quan sát i trong đó: Các phần dư chuẩn hoá ˆ ˆ i i i i y y y y s − − ˆ 1i i iy ys s h− = − 2 2 ( )1 ( ) i i i x xh n x x −= + −∑ 56 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Biểu đồ phần dư chuẩn hoá Q Biểu đồ phần dư chuẩn hoá có thể giúp ta hiểu rõ giả định số hạng sai số ε có phân phối chuẩn. Q Nếu giả định này được thoả mãn thì phân phối của các phần dư chuẩn hoá sẽ có vẻ bắt nguồn từ hay lấy từ một phân phối xác suất chuẩn tắc (vì s được dùng thay cho σ, phân phối xác suất của các phần dư chuẩn hoá về mặt kỹ thuật là không chuẩn. Tuy nhiên, trong hầu hết các nghiên cứu hồi quy, cỡ mẫu thường đủ lớn để một sự xấp xỉ chuẩn là rất tốt). Do vậy, khi xem xét biểu đồ phần dư chuẩn hoá, chúng ta kỳ vọng nhìn thấy khoảng 95% các phần dư chuẩn hoá nằm trong khoảng từ -2 đến +2. 57 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Biểu đồ phần dư chuẩn hoá Q Tất cả các phần dư chuẩn hoá khoảng từ –1,5 đến +1,5 cho biết không có lý do để nghi ngờ giả định là ε có phân phối chuẩn. 58 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích phần dư cho tính độc lập Q Thống kê Durbin-Watson y Sử dụng khi dữ liệu được thu thập theo thời gian nhằm phát hiện có tự tương quan (các phần dư ở một thời đoạn có liên quan với các phần dư ở một thời đoạn khác) y Đo lường sự vi phạm giả định độc lập 2 1 2 2 1 ( ) n i i i n i i e e D e − = = − = ∑ ∑ Nên gần bằng 2. Nếu không, hãy xem xét mô hình để tìm tự tương quan. 59 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Có được các giá trị tới hạn của thống kê Durbin-Watson Bảng 4.6 Tìm các giá trị tới hạn của thống kê Durbin-Watson 1,540,981,371,1016 1,540,951,361,0815 dUdLdUdLn p = 2p = 1 α = 0,05 60 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Sử dụng thống kê Durbin-Watson Chấp nhận H0 (không có tự tương quan) : Không có tự tương quan (các số hạng sai số độc lập với nhau) : Có tự tương quan (các số hạng sai số không độc lập với nhau) 0H 1H 0 42dL 4-dLdU 4-dU Bác bỏ H0 (tự tương quan dương) Không quyết định Bác bỏ H0 (tự tương quan âm) 61 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Phân tích phần dư cho tính độc lập Không độc lập Độc lập9 e e Thời gian Thời gian Phần dư được vẽ đồ thị theo thời gian để phát hiện tự tương quan Không có mẫu hình riêng biệt nào Mẫu hình chu kỳ Phương pháp đồ thị 62 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Bốn tập dữ liệu khác nhau có kết quả hồi quy như nhau 86,8955,7354,7455,68 87,9176,4277,2674,82 85,56128,15129,131210,84 1912,5045,3943,1044,26 85,2566,0866,1367,24 87,04148,84148,10149,96 88,47117,81119,26118,33 88,8497,1198,7798,81 87,711312,74138,74137,58 85,7686,7788,1486,95 86,58107,46109,14108,04 xyxyxyxy Tập DTập CTập BTập A 63 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các biểu đồ phân tán của bốn tập dữ liệu xy có các đặc tính thống kê rất giống nhau nhưng trông hoàn toàn khác nhau y = 3 + 0 ,5 x 0 2 4 6 8 1 0 1 2 0 2 4 6 8 1 0 1 2 1 4 y = 3 + 0 ,5 X 0 2 4 6 8 1 0 1 2 0 2 4 6 8 1 0 1 2 1 4 y = 3 + 0 ,5 X 0 2 4 6 8 1 0 1 2 1 4 0 2 4 6 8 1 0 1 2 1 4 y = 3 + 0 , 5 x 0 2 4 6 8 1 0 1 2 1 4 0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 64 GV: Th.S Trần Kim Ngọc Đại học Công nghệ Sài Gòn Các phần tử bất thường và các quan sát có ảnh hưởng Q Dò tìm các phần tử bất thường y Một phần tử bất thường là một quan sát khác thường khi được so sánh với dữ liệu khác. y Minitab xếp một quan sát vào loại phần tử bất thường nếu giá trị phần dư chuẩn hoá của nó < - 2 hay > +2. y Quy tắc phần dư chuẩn hoá này đôi khi không nhận ra một quan sát lớn khác thường là một phần tử bất thường. y Khiếm khuyết của quy tắc này có thể vượt qua bằng cách dùng các phần dư xoá bỏ student hoá. y |Phần dư xoá bỏ student hoá thứ i| sẽ lớn hơn |phần dư chuẩn hoá thứ i|.

Các file đính kèm theo tài liệu này:

  • pdfchuong_4_hoi_quy_tuyen_tinh_don_4091.pdf