Thống kê ứng dụng - Chương 11: Hồi quy và tương quan đơn biến

Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy ● Liên hệ hàm số: Y = b0 + b1X ● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất của Y ● Liên hệ TK: Y = b0 + b1.X ● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, có thể có nhiều Y ● DL mẫu  xác định đường HQ mẫu  dự đoán đường HQ tổng thể

pdf30 trang | Chia sẻ: nhung.12 | Lượt xem: 1193 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Thống kê ứng dụng - Chương 11: Hồi quy và tương quan đơn biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn MỤC TIÊU CỦA CHƯƠNG ●Sau khi học xong chương này, người học sẽ ● Nói được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến ● Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu ● Nói được những điều kiện và giả định cần thiết khi phân tích hồi quy ● Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman © Nguyễn Tiến Dũng 2Thống kê ứng dụng CÁC NỘI DUNG CHÍNH 11.1 Làm quen với hồi quy 11.2 Mô hình hồi quy tuyến tính đơn 11.3 Tương quan tuyến tính 11.4 Tương quan giữa các biến định tính © Nguyễn Tiến Dũng 3Thống kê ứng dụng 11.1 LÀM QUEN VỚI HỒI QUY ● 11.1.1 Khái niệm hồi quy ● Regression, Regression to mediority: quy các điểm DL đã biết về một đường lý thuyết ● Đ/nghĩa của TK: ● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay nhiều biến độc lập (biến đầu vào), ● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa trên các giá trị biết trước của biến độc lập ● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng ● TD: ● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý) © Nguyễn Tiến Dũng 4Thống kê ứng dụng 11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy ●Liên hệ hàm số: Y = b0 + b1X ● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất của Y ●Liên hệ TK: Y = b0 + b1.X ● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, có thể có nhiều Y ● DL mẫu  xác định đường HQ mẫu  dự đoán đường HQ tổng thể © Nguyễn Tiến Dũng 5Thống kê ứng dụng 11.1.3 Quy ước về ký hiệu và tên gọi ●Biến số: Y = b0 + b1.X1 + b2X2 ● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y ● Xki: giá trị của quan sát thứ i của biến Xk. ● b0, b1, b2: các hệ số của phương trình hồi quy ●Hồi quy đơn biến và hồi quy đa biến (HQ bội) ● HQ đơn biến (simple regression): 1 biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL © Nguyễn Tiến Dũng 6Thống kê ứng dụng 11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc © Nguyễn Tiến Dũng 7Thống kê ứng dụng 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN ●11.2.1 Mở đầu ● NC mối liên hệ giữa thu nhập (X) và chi tiêu (Y) ● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết ● E(y|xi) = b0 + b1.xi ● yi = b0 + b1xi + ei ● b0: hệ số tung độ gốc (hệ số chặn) ● b1: hệ số dốc (hệ số góc) ● ei: sai số, thể hiện yếu tố nhiễu © Nguyễn Tiến Dũng 8Thống kê ứng dụng 11.2.2 Các giả định liên quan đến yếu tố nhiễu ●Các ei tại mỗi xi có phân phối bình thường ●Không có sự tương quan giữa các nhiễu, hay các ei độc lập với nhau © Nguyễn Tiến Dũng 9Thống kê ứng dụng 11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy ●b1: hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. ●b0: hệ số tung độ gốc cho biết giá trị của Y khi X = 0, có thể coi là ảnh hưởng TB của các yếu tố khác mà không có mặt trong mô hình © Nguyễn Tiến Dũng 10Thống kê ứng dụng Dữ liệu mẫu Bảng 11.1 Trang 311 Stt Số năm (X) Doanh số (Y) 1 3 487 2 5 445 3 2 272 4 8 641 5 2 187 6 6 440 7 7 346 8 1 238 9 4 312 10 2 269 11 9 655 12 6 563 © Nguyễn Tiến Dũng 11Thống kê ứng dụng Xác định các hệ số hồi quy ●Phương pháp Cực tiểu hoá tổng bình phương của các phần dư © Nguyễn Tiến Dũng 12 2 2 0 1 1 1 min min ( ) n n i i i i i e y b b y       1 1 1 1 1 1 2 2 2 2 2 1 1 1 1 0 1 1 ( )( ) . . 1( ) . n n n n n i i i i i i i i i i i i i n n n n i i i i i i i i x x y y x y n x y x y x y n b x x x n x x x n b y b x                                    Thống kê ứng dụng © Nguyễn Tiến Dũng 13 Tử số của b1Mẫu số của b1 Thống kê ứng dụng 11.2.4 Tính toán các kết quả hồi quy bằng Excel ●Vẽ đồ thị Scatter Chart + Add Trendline © Nguyễn Tiến Dũng 14Thống kê ứng dụng Sử dụng Data Analysis: Regression © Nguyễn Tiến Dũng 15Thống kê ứng dụng 11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy ● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa Xmin và Xmax, hoặc không quá xa Xmin và Xmax ● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai số khi ước lượng Yi càng lớn. ● 𝑥 = 4,583 chỉ nên dự báo y quanh giá trị TB này. ● TD: Nếu một NVBH có 5 năm kinh nghiệm, thì doanh số người này có thể đạt là: © Nguyễn Tiến Dũng 16 ˆ 175,829 49,910 5 425,379 .)y     (tr.ñ Thống kê ứng dụng 11.2.6 Hệ số xác định của PTHQ ●Hệ số xác định (Coefficient of Determination) © Nguyễn Tiến Dũng 17 2 1 2 1 2 1 2 ( ) ˆ( ) ˆ( ) n i i n i i n i i i SST SSR SSE SST y y SSR y y SSE y y SSR R SST                Thống kê ứng dụng 11.2.7 Sai số chuẩn của hồi quy ●Sai số chuẩn của hồi quy sY/X: Thể hiện độ lệch của các giá trị ŷi xung quanh yi © Nguyễn Tiến Dũng 18 2 1 /X /X ˆ( ) 2 2 84.834, 295 92,1055 12 2 n i i i Y Y y y SSE s n n s           Thống kê ứng dụng © Nguyễn Tiến Dũng 19Thống kê ứng dụng 11.2.8 Suy diễn TK về hệ số độ dốc ●11.2.8.1 Định lý Gauss-Markov ●Giả định: PP của Y là bình thường thì PP của b0 và b1 cũng là PP bình thường ●Đ/lý Gauss-Markov ● Trong các ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất có PS cực tiểu. © Nguyễn Tiến Dũng 20Thống kê ứng dụng 11.2.8.2 Khoảng tin cậy cho hệ số độ dốc © Nguyễn Tiến Dũng 21Thống kê ứng dụng 11.2.8.3 KĐ ý nghĩa của hệ số độ dốc ●Cặp giả thuyết KĐ ●Chỉ tiêu KĐ tính: t = b1/sb1 ●Quy tắc bác bỏ H0: ●TD: ● b1 = 49,910 ● sb1 = 10,502 (xem Trang 323 về cách tính) ● tStat = 4,752  p-value = 0,008 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ●Bác bỏ H0. © Nguyễn Tiến Dũng 22 0 1 1 1 2; /2 2; /2 : 0 : 0 0 Baùc boû H neáu n n H H t t t t              Thống kê ứng dụng © Nguyễn Tiến Dũng 23 2 2 / 1 2 1 1 8.483, 429 110, 294 76,917 ( ) 110, 294 10,502 Y X b n i i b s s x x s         Thống kê ứng dụng 11.2.9 Phân tích phần dư (residuals/ errors) ●Mục đích: Kiểm tra tính đúng đắn của các giả định (assumptions) của phương trình hồi quy 1. Quan hệ giữa X và Y thực sự là quan hệ tuyến tính  trung bình của các phần dư ei = 0 2. Các phần dư ei có PP normal 3. PS của các phần dư là không đổi 4. Các phần dư là độc lập với nhau (không có hiện tượng tự tương quan giữa các phần dư) © Nguyễn Tiến Dũng 24Thống kê ứng dụng 11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y ●Giá trị TB © Nguyễn Tiến Dũng 25 ● Giá trị cá biệt 0 0 0 0 1 0 2 0 2; /2 | 2 1 ˆ(y | ) ˆ ( )1 ( ) y y n Y X n i i E x y e y b b x x x e t s n x x             0 0 0 0 1 0 2 0 2; /2 | 2 1 ˆ ˆ ( )1 1 ( ) y y n Y X n i i y y e y b b x x x e t s n x x              Thống kê ứng dụng 11.3 TƯƠNG QUAN TUYẾN TÍNH ●11.3.1 Hệ số tương quan tổng thể rho ●11.3.2 Hệ số tương quan mẫu rXY © Nguyễn Tiến Dũng 26 cov( , ) var( ) var( ) . XY XY XY X Y X Y X Y        1 2 2 1 1 ( )( ) . ( ) ( ) n i i XY i XY n n X Y i i i i x x y y s r s s x x y y              Thống kê ứng dụng Giá trị và ý nghĩa của hệ số tương quan Pearson ● r < 0: có mối liên hệ TQTT nghịch ● r > 0: có mối liên hệ TQTT thuận ● |r| > 0,8 : TQTT rất mạnh ● |r| = 0,6 – 0,8 : TQTT mạnh ● |r| = 0,4 – 0,6 : TQTT vừa phải ● |r| = 0,2 – 0,4 : TQTT yếu ● |r| < 0,2 : TQTT rất yếu © Nguyễn Tiến Dũng 27Thống kê ứng dụng KĐ ý nghĩa của hệ số tương quan tuyến tính ●Cặp giả thuyết KĐ ●Chỉ tiêu KĐ ●Quy tắc bác bỏ H0 ● Bác bỏ H0 nếu |t| > tn-2;α/2 ●TD: Trang 345 ● tStat = 4,7057 ● tn-2; /2 = 2,228 ●Bác bỏ H0  hệ số TQ tổng thể thực sự khác 0 © Nguyễn Tiến Dũng 28 0 1 : 0 : 0 H H      22 2 11 2 r n t r rr n       Thống kê ứng dụng 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH 11.4.1 Hệ số tương quan hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tương quan khác đối với DL thứ bậc © Nguyễn Tiến Dũng 29Thống kê ứng dụng KĐ theo hệ số tương quan hạng Spearman rS ● Biến x1 và x2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát ● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n) ● Tính hệ số tương quan hạng rS ● H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng thể = 0) ● Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh ● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z © Nguyễn Tiến Dũng 30 1 1 / 1 S S r z r n n      2 1 6 1 ( 1) S n i i d r n n     Thống kê ứng dụng

Các file đính kèm theo tài liệu này:

  • pdftkud2015_ch11_5227.pdf