Bài giảng Xác suất thống kê - Nguyễn Độc Lập

Nhận xét: vì r = 0,8398 > 0,7 do đó X và t có sự phụ thuộc tuyến tính mạnh. Nghĩa là nếu để càng lâu sau khi thu hoạch mới chế biến thì hàm l-ợng đ-ờng càng giảm.

pdf138 trang | Chia sẻ: tuanhd28 | Lượt xem: 1737 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê - Nguyễn Độc Lập, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
và 2t để cho 11)(   tUP và 22 )(   tUP và 21  tt  . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Suy ra:   1)( 21 tUtP        1) )( ( 21 tn ax tP Hay         112 t n Xat n XP Biểu thức cuối cùng cho biết tham số a của đại l-ợng ngẫu nhiên sẽ nằm trong khoảng:        12 ;     t n Xt n X với độ tin cậy )1(  (II) Nhận xét: (II) chỉ cho ta một khoảng tin cậy tổng quát của a. Với độ tin cậy )1(  ta có vô số khoảng tin cậy t-ơng -úng vì có vô số cách chọn 1 , 2 dẫn đến vô số 1t ; 2t . Trong thực tế, biểu thức (II) chỉ đ-ợc sử dụng trong một số tr-ờng hợp đặc biệt sau: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn a) Khoảng tin cậy đối xứng: Nếu chọn 2 21    , khi đó từ (II) suy ra khoảng tin cậy của a là:        2 ; 2  t n Xt n X (III) Trong đó 2  t là giá trị thỏa mãn 2 1 2         t , hay 2  t thỏa mãn: 2 1 2          t , trong đó:    x u duex 0 2 2 2 1 )(   (Hàm )(x gọi là hàm Laplace). Nếu đặt 2   t n  thì biểu thức (III) sẽ là:    XX ; và ta gọi  là độ chính xác của -ớc l-ợng, hay sai số cho phép của -ớc l-ợng. Nó phản ánh mức độ sai lệch giữa số trung bình (a) của đại l-ợng ngẫu nhiên X so với trung bình mẫu X với độ tin cậy 1 . Ví dụ: Trọng l-ợng của một loại sản phẩm là đại l-ợng ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta có kết quả: Trọng l-ợng (g) 18 19 20 21 Số sản phẩm 3 5 15 2 Với độ tin cậy 95,01  , hãy tìm khoảng tin cậy đối xứng của trọng l-ợng trung bình của loại sản phẩm nói trên? Giải: Gọi X là "Trọng l-ợng sản phẩm". Theo giả thiết )1,(: aNX . Ta cần chỉ ra khoảng tin cậy đối xứng của a với độ tin cậy 95,01  . Khoảng tin cậy cần tìm có dạng: ),(   XX . Trong đó X là trung bình mẫu ngẫu nhiên kích th-ớc 25n và 2   t n  . Ta thấy: ;1 25n ; 96,1 2 475,0 2 95,0 2 1 2           tt (phụ lục 2) (Bảng Laplat). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Chú ý: Nếu dùng bảng phân vị chuẩn thì: 975,0 2 195,01    Tra bảng phân vị chuẩn (phụ lục 3) ta cũng có U0,975 = 1,96 Suy ra: 392,096,1. 25 1  Từ mẫu đã cho, tính 64,19 25 2.2115.205.193.184 1    i x Vậy với độ tin cậy 0,95, khoảng tin cậy đối xứng của a (tức là trọng l-ợng trung bình) của sản phẩm trên là (19,64 - 0,392; 19,64 + 0,392). Hay: (19,248 < a < 20,032). Chú ý:* Không thể viết: P(19,248 < a < 20,032) = 0,95 vì độ tin cậy gắn với khoảng tin cậy ngẫu nhiên chứ không gắn với mẫu cụ thể, Mặt khác do a là hằng số nên nó chỉ có thể thuộc hoặc không thuộc khoảng: (19,248; 20,032). Tức là với một mẫu cụ thể thì biến cố (19,248 < a < 20,032) không phải là biến cố ngẫu nhiên. Nó sẽ là biến cố chắc chắn hoặc nó là biến cố không thể có. * Trong công thức: 2   t n  , nếu tăng cỡ mẫu lên và giữ nguyên độ tin cậy 1 cho trứoc thì  (sai số cho phép) giảm đi, tức là độ chính xác của -ớc l-ợng tăng lên. Nếu tăng độ tin cậy 1 lên mà vẫn giữ nguyên cỡ mẫu n thì giá trị của phân vị chuẩn cũng tăng lên. Do đó  cũng tăng lên và làm cho độ chính xác giảm đi. Ví dụ: Trong ví dụ trên nếu yêu cầu độ chính xác của -ớc l-ợng chỉ là 0,1, giữ nguyên độ tin cậy 95,01  thì cỡ mẫu cần phải xác định là: 38513841 1,0 96,1.1 12 . 2 22 2 0 22                        t n Tức là để sai số cho phép giảm từ 0,392 về 0,1 thì cỡ mẫu tăng từ 25 đến 385. * Xác định cỡ mẫu Nếu ấn định độ tin cậy ( 1 ) và sai số cho phép không v-ợt quá 0 cho tr-ớc thì kích th-ớc mẫu cần phải điều tra đ-ợc tính bởi công thức: 12 . 2 0 22                  t n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn b) Khoảng tin cậy bên phải: (-ớc l-ợng giá trị tối thiểu của a) Nếu lấy 01  ;  2 . Khi đó khoảng tin cậy của a là:        at n X )(  c) Khoảng tin cậy bên trái (-ớc l-ợng giá trị tối đa của a) Nếu lấy 02  ;  1 . Khi đó khoảng tin cậy của a là:        )(  t n Xa Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 2. Tr-ờng hợp ch-a biết ph-ơng sai D(X)= 2 a) Nếu cỡ mẫu n <30. Chọn thống kê: n S ax T ' )(   Ta đã biết thống kê T tuân theo quy luật Student với (n -1) bậc tự do. Khi đó: Khoảng tin cậy của a với độ tin cậy )1(  là:           )1( 1 ' )1( 1 ' 12 ; nn t n S Xt n S X  Khoảng tin cậy bên phải của a (-ớc l-ợng giá trị tối thiểu) khi ;01   2 là:          at n S X n )1( 1 '  Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Khoảng tin cậy bên trái của a (-ớc l-ợng giá trị tối đa) khi ;02   1 là:          )1( 1 ' nt n S Xa  Trong đó )1( nt , )1( 2/1   nt đ-ợc xác định từ bảng phân phối Student với (n -1) bậc tự do. Đặt 2I và gọi là độ dài của khoảng tin cậy, nó có độ dài ngắn nhất khi khoảng tin cậy là đối xứng;            )1( 2 1 ' nt n S  còn gọi là độ chính xác của -ớc l-ợng. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Theo dõi mức xăng hao phí (X) cho một loại ô tô đi từ A đến B thu đ-ợc bảng số liệu sau: Mức xăng (X) 19,0 - 19,5 19,5 - 20,0 20,0 - 20,5 20,5 - 21,0 Số lần đi 2 10 8 5 Với độ tin cậy 95,01  ; Hãy tìm khoảng tin cậy đối xứng của mức xăng hao phí trung bình, mức xăng hao phí trung bình tối thiểu, tối đa khi đi từ A đến B. Biết rằng X tuân theo quy luật phân phối chuẩn. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: Mức xăng hao phí trung bình chính là aXE )( cần -ớc l-ợng trong phân phối chuẩn, tr-ờng hợp ph-ơng sai ch-a biết và cỡ mẫu 3025 n . Tra bảng Student 064,2 24 975,0 )1( 2 1   tt n ; 711,1 24 5,0 )1(  tt n Căn cứ vào số liệu đã cho, ta lập bảng để tính X và  X(lít) ti ni d tt h i i 0   nihi 2 iihn 19,0 - 19,5 19,25 2 -1 -2 2 19,5 - 20,0 19,75 10 0 0 0 20,0 - 20,5 20,25 8 1 8 8 20,5 - 21,5 20,75 5 2 10 20  25 16 30 Ta thấy khoảng 2 có ni = 10 lớn nhất, chọn t0 = 19,75, d = 0,5. Khi đó: 07,2016. 25 5,0 75,19 4 1 0   i ii hn n d tX Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 2058,01976,0. 24 25 1976,016. 25 1 30 25 25,01 2'2 4 1 2 4 1 2 2 2                           Shn n hn n d S i i iiii Vậy: 4536,02058,0' S .Vậy với độ tin cậy 95,01  qua mẫu nói trên, mức xăng hao phí trung bình là: )26,20,283,19( 25 4536,0 .064,207,20 25 4536,0 .064,207,20        aa T-ơng tự, mức xăng hao phí tối đa sẽ là: )05,20( 25 45,0 711,107,20 2' )1(               a n S tXa n T-ơng tự, mức xăng hao phí tối thiểu sẽ là: )( 2' )1(   a n S tX n ) 25 45,0 711,107,20(  a )92,19(  a Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 2: Qua một mẫu điều tra về Urê máu của 10 ng-ời, ng-ời ta thu đ-ợc kết quả sau: Đơn vị (cg/1): 24; 40; 30; 19; 48; 32; 35; 21; 18; 40. Hãy -ớc l-ợng chỉ ra khoảng tin cậy đối xứng của số trung bình về Urê máu của đám đông với mức ý nghĩa %5 , và %1 . Giả thiết Urê máu có phân phối chuẩn. Giải: Gọi X là Urê máu ng-ời. Theo giả thiết ),(; 2aNX , trong đó a và 2 đều ch-a biết cần phải -ớc l-ợng dựa trên một mẫu có kích th-ớc 30n . Tra bảng Student 265,2 9 975,0 1 2/   tt n và 25,3 9 95,0 1 2/   tt n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Từ mẫu đã cho ta tính đ-ợc: 70,30)4018...194024.( 10 1 10 1 10 1   i iXX    10 1 '22' 3,1033,103)( 9 1 i i SXXS áp dụng công thức tìm khoảng tin cậy đối xứng:            )1( 2/1 ' )1( 1 ' ; 2/ nn t n S Xt n S X  . Khi đó khoảng tin cậy cần tìm của a với mức ý nghĩa 05,0 hay với độ tin cậy 0,95% là: )95,37;4,23(262,2. 10 3,103 70,30;262,2. 10 3,103 70,30           Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Khi đó khoảng tin cậy cần tìm của a mức ý nghĩa 01,0 hayvới độ tin cậy 0,99% là: )1,41;3,20(25,3. 10 3,103 70,30;25,3. 10 3,103 70,30           Nếu giả thiết ),(: 2aNX mà cả a và 2 đều ch-a biết. Bài toán đặt ra là phải tìm kích th-ớc (cỡ) mẫu tối thiểu cho một cuộc điều tra về kỳ vọng a. Với độ tin cậy )1(  đa đ-ợc đặt ra và sai số  cho phép không v-ợt quá số 0 cho tr-ớc, khi đó cỡ mẫu tối thiểu đ-ợc tính bởi công thức: 12 1.2 0 2'        n t S N   . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Phỏng vấn 5 gia đình có 6 nguời về chi phí hàng tháng cho nhu cầu điện thoại, ng-ời ta thu đ-ợc số liệu sau: 150, 180, 200, 250, 300 (đơn vị ngàn đồng). Vậy phải phỏng vấn thêm bao nhiêu gia đình cùng loại để với độ tin cậy 95% thì sai số của việc -ớc l-ợng chi phí trung bình hàng tháng cho nhu cầu trên không v-ợt quá 30 ngàn đồng. Giả sử chi phí cho nhu cầu trên là đại l-ợng ngẫu nhiên có phân phối chuẩn. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: ;5n 216)300250200180150( 5 11 5 1   i iX n X   3530)216300(...)216180()216150( 4 1 )( 1 1 222 55 1 22'     i i XX n S Sai số cho phép của -ớc l-ợng đ-ợc ấn định 3030 0   Tra bảng Fishir-Student ta có: 776,2 4 975,0 t Theo công thức: 12 1.2 0 2'        nt S N    311]18,30[1)776,2( 30 3530 2 2          N Nh- vậy phải phỏng vấn thêm 26 gia đình nữa. (Vì đã hỏi 5 gia đình) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn b) Nếu cỡ mẫu 30n . Nh- ta đã biết, phân phối Student xấp xỉ phân phối chuẩn khi n khá lớn, trong thực tế áp dụng cỡ mẫu 30n . Chọn thống kê: n S ax U ' )(   Thống kê U xấp xỉ phân phối chuẩn hóa khi n đủ lớn ( 30n ). Khi đó: Khoảng tin cậy của a với độ tin cậy )1(  là:         12 1 ' 1 ' ;  U n S XU n S X Khoảng tin cậy đối xứng của a khi 2 21    là:         2/1 ' 2/1 ' ;  U n S XU n S X Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Khoảng tin cậy bên phải của a (-ớc l-ợng giá trị tối thiểu) khi 01  ;  2 là:         aU n S X 1 ' Khoảng tin cậy bên trái của a (-ớc l-ợng giá trị tối đa) khi 02  ;  1 là:        1 ' U n S Xa Trong đó 2/1,  UU đ-ợc xác định từ bảng giá trị của hàm Laplatce. Đặt 2I và gọi là độ dài của khoảng tin cậy, nó có độ dài ngắn nhất khi khoảng tin cậy là đối xứng; 2 1 ' (    U n S còn gọi là độ chính xác của -ớc l-ợng). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Để -ớc l-ợng năng suất trung bình của giống lúa A tại một vùng, ng-ời ta gặt ngẫu nhiên 100 thửa ruộng ở vùng đó và thu đ-ợc bảng số liệu sau: Năng suất (tạ/ha) 40 - 42 42 - 44 44 - 46 46 - 48 48 - 50 50 - 52 Số thửa (ni) 7 13 25 35 15 5 Biết năng suất lúa tuân theo quy luật phân phối chuẩn. 1) Hãy -ớc l-ợng năng suất trung bình của giống lúa đó trong vùng đang xét bằng khoảng tin cậy đối xứng với độ tin cậy 0,95. 2) Cũng với độ tin cậy 0,95, hãy -ớc l-ợng năng suất trung bình tối thiểu của giống lúa A tại vùng đó. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: Gọi X là năng suất giống lúa A tại vùng đang xét. ),(: 2aNX . Cả a và 2 đều ch-a biết, ta cần -ớc l-ợng khoảng cho kỳ vọng (a) bằng khoảng tin cậy đối xứng đối với mẫu có kích th-ớc lớn )100( n áp dụng công thức:         2/1 ' 2/1 ' ;  U n S XU n S X Tra bảng hàm Laplatce ta có: 96,1975,02/1  UU  . Với số liệu đã cho, ta lập bảng tính toán sau để tính ';SX Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn X(tạ/ha) ni 2 0tth ii   nihi 2 ih 2 iihn 40 - 42 7 -3 -21 9 63 42 - 44 13 -2 -26 4 52 44 - 46 25 -1 -25 1 25 46 - 48 35 0 0 0 0 48 - 50 15 1 15 1 15 50 - 52 5 2 10 4 20  n = 100 -47 175 Khoảng (46 - 48) có tần số ni = 35 lớn nhất. Do đó ta chọn t0 = 47; d = 2.    6 1 0 06,46)47( 100 2 47 100 2 i ii hntX 1164,6)47( 100 1 175 100 41 2 2 6 1 6 1 2 2                          i i iiii hn n hn n d S 48,2178,6178,61164,6 99 100 1 2''22'    SSS n n S 1) Vậy khoảng tin cậy đối xứng của năng suất trung bình giống lúa A với độ tin cậy 0,95 là: )55,4658,45(96,1. 100 48,2 06,4696,1. 100 48,2 06,46        aa (tạ/ha) 2) Ta có năng suất tối thiểu với độ tin cậy 0,95 tính bởi:         aU n S X 1 ' . Tra bảng )64,45(645,1. 100 48,2 06,46645,195,0        aaU (tạ/h). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 6.2.3. -ớc l-ợng khoảng cho kỳ vọng a của đại l-ợng ngẫu nhiên X khi ch-a biết rõ quy luật phân phối, dựa vào mẫu lớn. Giả sử từ một tổng thể, dấu hiệu cần nghiên cứu nào đó đ-ợc coi nh- đại l-ợng ngẫu nhiên X phân phối theo một quy luật khác với quy luật chuẩn. X có kỳ vọng toán là a mà ta cần -ớc l-ợng. Từ X có mẫu ngẫu nhiên có kích th-ớc n đủ lớn W = (X1, X2,..., Xn). Dựa vào định lý Lindenbreg-Lewy: "Nếu các đại l-ợng ngẫu nhiên X1, X2,..., Xn độc lập, có cùng kỳ vọng a và ph-ơng sai 2 thì các đại l-ợng ngẫu nhiên: n ax T  )( 1   và n S ax T '2 )(   sẽ có phân phối chuẩn hóa N(0,1) khi n “đủ lớn". Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Dựa vào định lý trên, để -ớc l-ợng a của X ta có thể chọn thống kê: n ax T  )( 1   (Nếu đã biết ph-ơng sai 2 của X) n S ax T '2 )(   (Nếu ch-a biết ph-ơng sai 2 của X) Ta đã biết, nếu kích th-ớc n đủ lớn, cả hai thống kê trên đều có phân phối xấp xỉ chuẩn hóa N(0,1). Do đó, cách -ớc l-ợng a bằng khoảng tin cậy vẫn tiến hành nh- ta đã biết. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Kiểm tra 100 sản phẩm của một nhà máy, thấy trọng l-ợng bình quân là 20kg và S = 1,5kg. a) Nếu cho rằng trọng l-ợng bình quân đã thu đ-ợc sai khác với trọng l-ợng bình quân thật sự không quá 0,3 kg thì độ tin cậy của -ớc l-ợng phải bằng bao nhiêu? b) Từ mẫu sơ bộ đã có, hỏi phải kiểm tra một mẫu là bao nhiêu sản phẩm để kết quả bình quân thu đ-ợc sai khác với trọng l-ợng bình quân thực sự không quá 0,3 kg với độ tin cậy 0,9973. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn a) Gọi X là trọng l-ợng của loại sản phẩm. Trọng l-ợng bình quân thực sự chính là kỳ vọng a của X. Với n = 100 thì thống kê n S ax T ' )(   đ-ợc coi là có phân phối chuẩn hóa N(0,1). Ta có khoảng tin cậy đối xứng của a với độ tin cậy )1(  là:        2/ ' 2/ ' ;  U n S XU n S X Theo đầu bài, sai số cho phép của -ớc l-ợng là 3,0 . Suy ra: .2 5,1 100.3,0 3,0 2/2/ '   UU n S Vì ).2(2)(21 2 1 )( 2/2/        UU = 2.0,47725=0,9545. Đây chính là độ tin cậy cần tìm. Giải: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn b) Với ý định chọn mẫu lớn ).100( n Sử dụng công thức: .12 2/2 0 2'             U S N Ta có: 2/0 ' ;3,0;5,1  USS  là số sao cho: 3 2 9773,0 )( 2 1 )( 2/2/2/        UUU (Nhờ tra bảng Laplatce). Khi đó: 2259. )3,0( )5,1( 2 2 2 2/2 0 2'                  U S . Vậy cần kiểm tra một mẫu ít nhất là 225 sản phẩm để bình quân thu đ-ợc (20kg) khác với bình quân thật sự của sản phẩm không quá 0,3 kg, với độ tin cậy 0,9973. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 6.2.4. -ớc l-ợng khoảng cho tỷ lệ hay xác suất Khi n đủ lớn, đại l-ợng thống kê )1( )( ff npf T    xấp xỉ phân phối của đại l-ợng ngẫu nhiên có phân phối chuẩn hóa N(0,1). Trong đó: , 1 1 XX n f n i i   f là tỷ lệ mang đặc tính A trong mẫu ngẫu nhiên đ-ợc lấy ra. pfE )( và n pp fD )1( )(   . Khi đó khoảng tin cậy đối xứng của p với độ tin cậy )1(  là: . )1( ; )1( 2/2/              U n ff fU n ff f Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Đặt: 2/ )1(   U n ff   , khi đó khoảng tin cậy đối xứng của p với độ tin cậy )1(  là: Khoảng tin cậy bên phải (-ớc l-ợng giá trị tối thiểu) của p:            pU n ff f  1( Khoảng tin cậy bên trái (-ớc l-ợng giá trị tối đa) của p:           U n ff fp )1( Chú ý: Khi áp dụng các công thức trên, để kết quả đ-ợc chính xác ta cần có n lớn, f không quá nhỏ hoặc quá lớn. Thực tế, ta áp dụng khi: .10)1(;10;9,01,0;100  fnnffn (*) Kích th-ớc của mẫu cần phải điều tra đảm bảo cho việc -ớc l-ợng xác suất p có độ tin cậy )1(  và sai số cho phép  không v-ợt quá 0 là: 1 )1( 2 2/2 0 1           U ff N (Dùng khi đã có mẫu định h-ớng và f là tần suất hay tỷ lệ của mẫu đó). Với: 2/U thỏa mãn 2 1)( 2/    U hay 2 1 )( 2/     U 1 4 1 2 2/2 0 2          UN (Dùng khi ch-a có hoặc không có mẫu định h-ớng và f là tần suất hay tỷ lệ của mẫu đó) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 1: Kiểm tra ngẫu nhiên 400 sản phẩm do một máy sản xuất thấy có 20 phế phẩm. Với độ tin cậy 0,95, hãy -ớc l-ợng tỷ lệ phế phẩm tối đa của máy đó. Giải: Gọi p là tỷ lệ phế phẩm của máy đó và gọi f là tỷ lệ phế phẩm của máy đó ở mẫu có kích th-ớc n = 400. ứng với độ tin cậy 95,01  thì khoảng tin cậy bên trái (-ớc l-ợng giá trị tối đa) của p là:           U n ff fp )1( Ta có ;645,105,0   U 05,0400/20 f . Vậy tỷ lệ phế phẩm p tối đa của máy cần -ớc l-ợng là: 0679,0645,1. 400 95,0.05,0 05,0          pp Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 2: Cần phải chọn một mẫu kích th-ớc bằng bao nhiêu để với độ tin cậy 0,95 thì tỷ lệ hạt giống không đạt tiêu chuẩn của mẫu đó khác với tỷ lệ thật của toàn bộ hạt giống không v-ợt quá 0,05. Giải: Tr-ờng hợp này ta ch-a có mẫu cụ thể (mẫu định h-ớng); 05,00  Độ tin cậy ấn định 96,195,01 2/   U . Kích th-ớc của mẫu cần phải điều tra thỏa mãn đầu bài là:   385116,3841)96,1( )05,0.(4 1 1 4 1 2 2 2 2/2 0 2              NUN   Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 3: Điều tra tình hình mắc bệnh b-ớu cổ ở một vùng dân c- trên một mẫu gồm 500 ng-ời (nữ, tuổi từ 30 đến 50), thấy có 60 ng-ời mắc bệnh. Nếu cho rằng đối với dân (là nữ, tuổi từ 30 đến 50) ở vùng đó, độ sai khác giữa tỷ lệ không bị mắc bệnh thực tế với tỷ lệ thu đ-ợc ở mẫu không v-ợt quá 3% thì độ tin cậy của -ớc l-ợng phải là bao nhiêu? Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: Gọi p là tỷ lệ không bị mắc bệnh b-ớu cổ của dân c- vùng đang xét. Ta cần -ớc l-ợng khoảng cho p. Tỷ lệ mắc bệnh ở mẫu là 12,0 500 60 )1(  f . Suy ra tỷ lệ không mắc bệnh ở mẫu là: .88,0f Vì 500n ; 9,01,0  f ; 10nf ; 10)1(  fn . (Thỏa mãn chú ý (*)). Theo giả thiết, sai số cho phép là 03,0 . Từ: 06,2 325,0 67,0 12,0.88,0 500.03,0 )1( .)1( 2/2/      ff n UU n ff    Tra bảng  483,0)06,2()( 2/  U Độ tin cậy .96,0)06,2(.2)1(   Kết luận: Dựa vào cuộc điều tra đã tiến hành thì với độ tin cậy 0,96, khoảng tin cậy đối xứng của p là: (0,88 - 0,03 < p < 0,88 + 0,03). Hay: (0,85 < p < 0,91). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 4: Để -ớc l-ợng cá trong hồ, ng-ời ta đánh lên 2000 con, đánh dấu chúng, rồi thả xuống. Sau một thời gian, để số cá đã đánh dấu phân tán t-ơng đối đồng đều trong hồ, ng-ời ta lại đánh lên một mẫu n = 400 con thì thấy có 80 con bị đánh dấu. Với độ tin cậy 0,90, hãy -ớc l-ợng số cá hiện có trong hồ? Giải: Gọi số cá trong hồ cần -ớc l-ợng là N. Tỷ lệ cá bị đánh dấu trong hồ là N p 2000  . Trong mẫu 400 con cá, có 80 con bị đánh dấu. Do đó tỷ lệ f (cá bị đánh dấu ở mẫu) là: 20,0 400 80 f . Ta chú ý rằng n = 400; 0,1 10; n.(1 - f) > 10. Vậy chú ý (*) đ-ợc thỏa mãn Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Với độ tin cậy đã ấn định: 645,145,0)(9,01 975,02/2/  UUU  . Khoảng tin cậy đối xứng của p ứng với độ tin cậy 0,90 là:             2/2/ )1()1(  U n ff fpU n ff f . Khi đó:          645,1. 400 8,0.2,0 2,0645,1. 400 8,0.2,0 2,0 p  ).233,0167,0(  p Từ: N p 2000  , suy ra: (8.583 < N < 11.976). Vậy với độ tin cậy 0,90, số cá trong hồ có khoảng tử 8.583 đến 11.976 con. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ch-ơng VII Kiểm định giả thiết thống kê Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Đặt vấn đề: Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề nào đó. Ví dụ: so sánh tham ẩn  của một phân phối nào đó (có thể là kỳ vọng, ph-ơng sai, xác suất...). Muốn vậy, ta th-ờng khảo sát các mẫu và nhận thấy có sự sai khác nh- trọng l-ợng trung bình giữa các mẫu thu đ-ợc, chiều cao của giữa các nhóm thanh niên. Nếu sự sai khác đó nhỏ thì có thể coi là sự ngẫu nhiên. Ng-ợc lại, nếu sự sai khác đó đủ lớn thì không thể cho là ngẫu nhiên đ-ợc mà có sự sai khác thật sự giữa các đám đông (tổng thể). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Vấn đề đặt ra là: ta phải lựa chọn một trong hai giả thiết để khả năng đúng cao hơn, khả năng sai thấp hơn. Ta có định nghĩa sau: Định nghĩa: Bất kỳ giả thiết nào nói về các tham số, dạng quy luật phân phối hoặc tính độc lập của các đại l-ợng ngẫu nhiên đều đ-ợc coi là giả thiết thống kê.Việc tìm ra kết luận về tính thừa nhận đ-ợc hay không thừa nhận đ-ợc của giả thiết đ-ợc gọi là kiểm định. Giả thiết cần kiểm định gọi là giả thiết không và ký hiệu là H0 (viết tắt của Hypothesis) Giả thiết đối lập với H0 gọi là đối thiết và ký hiệu là H1 (có sách viết H, H ). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Nếu giả sử cần nghiên cứu tham số  nào đó của đại l-ợng ngẫu nhiên và có cơ sở nào đó để nêu giả thiết 0  . Khi đó cặp giả thiết và đối thiết sẽ là cặp: 00 :  H ; 01 :  H hoặc 00 :  H ; 01 :  H hoặc 00 :  H ; 01 :  H Để giải quyết bài toán trên, thông tin duy nhất mà chúng ta có là một mẫu ngẫu nhiên. Kiểm định một giả thiết là căn cứ vào mẫu thu đ-ợc để quyết định nên bác bỏ hay chấp nhận giả thiết đó. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 7.1. Quy tắc kiểm định giả thiết Muốn kiểm định một giả thiết liên quan đến quy luật của đại l-ợng ngẫu nhiên X. Ta lập mẫu ngẫu nhiên kích th-ớc n : ),...,,( 21 nx xxxW  . Dựa trên mẫu đó, chọn lập thống kê ),,...,,(,( 21  nxxxfXG  . Với giả thiết H0 đã nêu, thống kê G có một phân phối xác suất nhất định và có thể tính toán đ-ợc. Thống kê G gọi là tiêu chuẩn kiểm định Khi đó với xác suất  cho tr-ớc ( gọi là mức ý nghĩa của kiểm định, với l-u ý rằng  th-ờng rất nhỏ), ta sẽ tìm đ-ợc G1 và G2 sao cho: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn P(G1 < G < G2) = 1 -  ; (1 -  : gọi là độ tin cậy) Các số G1, G2 đ-ợc xác định bởi P(G G2) =  /2 Với G đ-ợc tính theo mẫu trên có thể xảy ra: 1) Nếu G (G1, G2) ta chấp nhận H0 2) Nếu G  (G1, G2), tức là hoặc (G > G2) hoặc (G < G1) ta bác bỏ H0 (Điều này có nghĩa là: với một sự kiện có xác suất  (nhỏ) đã xảy ra trong một lần quan sát mẫu. Theo nguyên lý xác suất nhỏ ta bác bỏ H0) Chú ý: Với cùng mức ý nghĩa  , đối với một tiêu chuẩn kiểm định G có thể có vô số miền bác bỏ Wx Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 7.2. Các sai lầm mắc phải khi kiểm định Khi kiểm định giả thiết H0 với đối thiết H1 ta có thể phạm sai lầm: Sai lầm loại I: Giả thiết H0 đúng mà ta lại bác bỏ nó. Xác suất mắc phải sai lầm này đúng bằng  . Sai lầm loại này do mẫu có cỡ quá nhỏ, hoặc do cách lấy mẫu... Sai lầm loại II: Giả thiết H0 là sai mà ta lại chấp nhận nó. ý muốn của ta là phải chọn G sao cho cực tiểu cả hai khả năng phạm sai lầm. Tuy nhiên khi cỡ mẫu n cố định thì ý muốn trên không thể thực hiện đ-ợc. Trong thực hành, ta cố gắng tìm quy tắc kiểm định sao cho xác suất để phạm sai lầm loại II là nhỏ nhất. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Tóm lại: Trong việc kiểm định H0 ta dẫn đến một trong hai quyết định sau: i) Bác bỏ H0 ii) Không có lý do để bác bỏ H0 và ta tạm giữ nó để nghiên cứu tiếp. Bác bỏ một giả thiết chỉ có nghĩa là chấp nhận một giả thiết khác chứ không có nghĩa là giả thiết bị bác bỏ là sai. Chấp nhận một giả thiết có nghĩa là không chấp nhận các giả thiết khác chứ không có nghĩa là giả thiết đ-ợc chấp nhận là đúng. Do vậy kiểm định một giả thiết chỉ là quy tắc hành động chứ không phải là chứng minh tính lôgic một mệnh đề. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 7.3. Kiểm định giả thiết về kỳ vọng toán (giá trị trung bình) của đại l-ợng ngẫu nhiên có phân phối chuẩn. Giả sử đại l-ợng ngẫu nhiên X tuân theo quy luật phân phối chuẩn ),( 2aN . (Nếu X không chuẩn thì lấy mẫu có kích th-ớc 30n ). Trong đó E(X) = a ch-a biết, nh-ng có cơ sở nào đó để đ-a ra giả thiết H0: E(X) = a = a0, cần phải kiểm định giả thiết này với các đối thiết:  01 : aaH 01 : aaH  ; hoặc ,: 01 aaH  cho tr-ớc. Ta xét các tr-ờng hợp sau đây: 7.3.1. Đã biết ph-ơng sai 2)( XD . Ta có quy tắc thực hành sau đây: Để kiểm định 00 : aaH  ; 01 : aaH  , ta tiến hành lấy mẫu ),...,,( 21 nx xxxW  + Tính trung bình mẫu    n i ix n X 1 1 ;          n i ii xn n X 1 1 + Tính số n aX U    . Tra bảng chuẩn với mức ý nghĩa  , 2 1)( 2/    U , ta tìm đ-ợc 2/U . (Thông th-ờng: 96,105,0 2/   U ; )58,201,0 2/   U ; + So sánh giữa U và 2/U : * Nếu        2/ 2/ 2/    UU UU UU Ta bác bỏ H0 * Nếu  2/2/2/  UUUUU Ta chấp nhận H0 Ví dụ 1: Từ một đám đông nào đó có phân phối chuẩn với 2,5 Lấy một mẫu cỡ n =100, ta tính đ-ợc 26,27X Hãy kiểm định giả thiết H0: a = 26; H1: a  26 ở mức ý nghĩa 05,0 Giải: n = 100, 26,27X , 05,0 , tra bảng có 975,02/ UU  ;2,5 .260 a Ta tính 42,2 2,5 6,12 100 2,5 2626,270      n aX U So sánh ta thấy 96,142,2 2/  UU . Vậy ta bác bỏ H0. Ta hiểu là: Kỳ vọng a của đám đông khác 26 một cách có ý nghĩa ở mức 05,0 . Nhận xét: Vẫn với giả thiết của bài toán trên, nếu lấy mức ý nghĩa 01,0 (Tức là để giảm bớt sai lầm loại I). Khi đó tra bảng ta có 58,2576,2995,02/ UU . (Phụ lục 3). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn L-u ý: Ta có thể tra bảng phụ lục 2 (vẫn có cùng một kết quả nh- sau): Từ .58,2)(4950,0 2 99,0 2 1 01,0 2/2/       UU Do vậy  58,242,2 2/UU Ta phải tạm giữ H0, nh-ng khi đó khả năng mắc sai lầm loại II tăng lên (H0 là sai mà ta lại công nhận). Muốn có kết luận tốt hơn ta phải tiếp tục làm thí nghiệm. Chú ý: Nếu ta xét H0: a = a0; H1: a > a0 hoặc: H0 ; a = a0 ; H1: a < a0. Khi đó miền tiêu chuẩn t-ơng ứng sẽ là:            Un aX xxxG n :),...,,( 21 (1) hoặc:            Un aX xxxG n :),...,,( 21 (2) Trong đó: ;1)(   U    )( U Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 2: Một v-ờn cây giống có chiều cao trung bình ch-a xác định. Theo thỏa thuận giữa ng-ời chủ v-ờn là Lâm tr-ờng trồng cây thì chỉ khi nào chiều cao của cây đạt trên 1 mét mới đem trồng để đảm bảo tỷ lệ sống cao. Ng-ời ta điều tra ngẫu nhiên 50 cây trong v-ờn và tính đ-ợc chiều cao trung bình mX 1,1 . Với mức ý nghĩa 0,05, hỏi v-ờn cây giống đó đã đ-a ra trồng đ-ợc ch-a? Cho biết sự biến động về chiều cao của loại cây giống nói trên trong giai đoạn v-ờn -ơm ở trong những điều kiện t-ơng tự là .1,0 Giải: H0: a = 1,0; H1: a >1,0; 05,0 . theo chú ý (1) ở trên: Ta có: ;645,195,0 UU 1,71,7 1,0 0,11,1 50 1,0 0,1      X U Rõ ràng 65,171,1  UU nên ta bác bỏ H0 và chấp nhận đối thiết .0,1:1 aH . Nghĩa là số cây giống đã có thể đem ra trồng đ-ợc rồi. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 7.3.2. Tr-ờng hợp ch-a biết D(X). Chia làm hai tr-ờng hợp:  Nếu cỡ mẫu n < 30 Từ mẫu ngẫu nhiên ),...,,( 21 nx xxxW  , chọn thống kê: n S aX T ' 0 )  làm tiêu chuẩn kiểm định Nếu H1 đúng, tức là a = a0 thì thống kê T trở thành: n S aX n S aX T '' 0 )()    . Ta đã biết rằng T có phân phối Student với )1( n bậc tự do. Khi đó miền bác bỏ đ-ợc xây dựng phụ thuộc vào đối thiết H1 nh- sau: 1) ;: 0aaH  01 : aaH   )1(:  ntTTW  2) ;: 0aaH  01 : aaH   )1(:  ntTTW  3) ;: 0aaH  01 : aaH    )1( 2/:  ntTTW  Trong đó )1( nt , )1( 2/ nt có đ-ợc nhờ tra bảng )1( n bậc tự do. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ta có quy tắc thực hành sau đây: + Lập mẫu cỡ ),...,,( 21 nx xxxW  + Tính trung bình mẫu    n i ixX 1 + Tính ph-ơng sai mẫu: 1 )( 1 2 2'      n xx S n i i + Xét thống kê n S aX U ' 0  (Tra bảng Student tìm số 2/t với 1n bậc tự do) + So sánh: Nếu ,2/tT  H0 bị bác bỏ ở mức  . Nếu ,2/tT  tạm thời giữ H0 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn áp dụng: Để nghiên cứu ảnh h-ởng của tia xạ lên động vật, ng-ời ta cân 11 con chuột tr-ớc và sau khi tia xạ thấy đột sụt cân nh- sau (gam): 3,2; 1,2; 0,5; 1,8; 1,0; 3,4; 0,9; 1,0; 0,5; 1,6; 5,2. Với mức ý nghĩa 0,01; Hỏi độ sụt cân đó là do ngẫu nhiên hay do bị nhiễm xạ? Giải: Ta giả thiết sự sụt cân của chuột là đại l-ợng ngẫu nhiên có phân phối chuẩn. Ta kiểm định giả thiết: H0 - a = 0 (Không sụt cân do nhiễm xạ) Đối thiết: 0:1 aH (Sụt cân do nhiễm xạ). Ta có .85,1845,1 11 2,5...2,12,3 11 1      n X X i i Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Tính 1934,2 10 934,21 10 )85,12,5(...)85,12,1()85,12,3( 1 )( 222 11 1 2 2'         n xx S i i Suy ra: 481,11934,2 2'  SS Tính: 14,411 481,1 085,1   T . Tra bảng phân phối Student với mức ý nghĩa 01,0 , ta có 169,3 10 2/ t . So sánh 169,314,4 10 2/  tT . Suy ra giả thiết 0:0 aH bị bác bỏ ở mức 0,01. Nói cách khác: chuột bị nhiễm xạ đã sụt cân. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Nếu cỡ mẫu :30n Ta biết rằng, khi n đủ lớn (thông th-ờng với: 30n ) khi đó phân phối Student xấp xỉ phân phối chuẩn. Do vậy đối với tr-ờng hợp này (ch-a biết ph-ơng sai, 30n ) ta chọn: n S ax U ' 0 )(   làm tiêu chuẩn kiểm định. Khi đó miền bác bỏ đ-ợc xây dựng phụ thuộc vào đối thiết H1 nh- sau: 1) ;: 0aaH  01 : aaH    UUUW  : 2) ;: 0aaH  01 : aaH    UUUW  : 3) ;: 0aaH  01 : aaH   2/:  UUUW  Trong đó: 2/,  UU có đ-ợc nhờ tra bảng Laplatce. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Trọng l-ợng trung bình của một loại sản phẩm là 6 kg. Qua thực tế sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đ-ợc số liệu sau: Trọng l-ợng (g) 1 2 3 4 5 6 7 8 9 10 11 Số sản phẩm (ni) 4 6 7 17 17 23 15 12 9 8 3 Hãy kết luận về tình hình sản xuất với mức ý nghĩa 5%. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: n = 121 > 30. 6:0 aH ; 6:1 aH Chọn thống kê: n S ax U ' 0 )(  làm tiêu chuẩn kiểm định. Khi đó miền bác bỏ đ-ợc xây dựng phụ thuộc vào đối thiết H1 nh- sau: 0: aaH  ; 01 : aaH   2/:  UUUW  Tra bảng Laplatce 96,1975,02/ UU . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn xi ni nixi 2 ii xn 1 4 4 4 2 6 12 24 3 7 21 63 4 17 68 272 5 17 85 425 6 23 138 828 7 15 105 735 8 12 96 768 9 9 81 729 10 8 80 800 11 3 33 363  n = 121 723 5011 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Căn cứ vào số liệu đã cho ta lập bảng tính toán trên Khi đó ;975,5 121 7231   ii xn n X 712,5)975,5( 121 5011 )( 22 22  XXS 4,27596,57596,5712,5. 120 121 '2'  SS Do đó: 2/1146,0121 4,2 )6975,5( UU    Vậy ta chấp nhận H0. Điều đó có nghĩa là tình hình sản xuất vẫn bình th-ờng. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 7.4. Kiểm định giả thiết về xác suất hoặc tỷ lệ Giả sử ),...,,( 21 nxxx là mẫu ngẫu nhiên tuân theo quy luật phân phối "Không- một" Ta đã biết, pXE )( và qpXD .)(  . Với p ch-a biết, nh-ng có cơ sở để nêu giả thiết: 00 : ppH  với đối thiết 01 : ppH  ; hoặc 01 :( ppH  ; ): 01 ppH  . Với cách lý luận nh- trên, ta nhận đ-ợc các miền tiêu chuẩn t-ơng ứng với mức ý nghĩa  nh- sau: ;0pp              2/ 00 0 0 )1( Un pp pf Gpp hoặc: ;0pp              Un pp pf Gpp )1( 00 0 0 hoặc: ;0pp              2/ 00 0 0 )1( Un pp pf Gpp . Trong đó n m Xf  là tần suất mẫu. Sau đó xem xét: n pp pf U )1( 00 0    để kết luận. Nếu GU  thì bác bỏ H0. Nếu GU  thì ch-a có cơ sở để bác bỏ H0. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Một kho hạt giống có tỷ lệ nảy mầm xác định là 0,90. Ngẫu nhiên có một thiết bị bảo quản bị hỏng làm thay đổi điều kiện bên trong kho. Với độ tin cậy 05,0 , hỏi tỷ lệ nảy mầm của kho hạt giống đó có còn giữ nguyên nh- tr-ớc hay không? Giải: Để có thông tin mới về tỷ lệ nảy mầm của kho hạt giống, giả sử ng-ời ta đã làm thí nghiệm với 200 hạt thấy có 140 hạt nảy mầm. Khi đó bài toán kiểm định sẽ là: ;9,0: 00  ppH 01 : ppH  . Tra bảng Lalatce ta có: ).64,1( 05,0 U ;0pp  5,9200 1,0.9,0 9,0 200 140 )1( 00 0 0                UUn pp pf Gpp  . Ta thấy: -9,5 < - 1,64 vậy bác bỏ H0, chấp nhận H1, (Tỷ lệ nảy mầm trong kho đã giảm). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ch-ơng VIII Lý thuyết t-ơng quan và hồi quy Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Khi nghiên cứu sự phụ thuộc giữa hai đại l-ợng ngẫu nhiên, trong đó mỗi đại l-ợng ngẫu nhiên chịu một sự phân tán ngẫu nhiên nào đó (Sự tản mát không kiểm tra đ-ợc), ta dùng ph-ơng pháp phân tích t-ơng quan. Với ph-ơng pháp này, ta không những phát hiện đ-ợc mối quan hệ phụ thuộc giữa chúng mà còn "l-ợng hóa" đ-ợc mối quan hệ này. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.1. Hệ số t-ơng quan mẫu Trong phần cơ sở xác suất, ta đã biết hệ số t-ơng quan giữa hai biến ngẫu nhiên X và Y. 2222 )()()()( )().().( EYYEEXXE YEXEYXE p    Đó là số đo mức độ phụ thuộc tuyến tính giữa hai biến ngẫu nhiên X và Y. Tuy nhiên khi ch-a biết phân phối của (X, Y) thì hệ số t-ợng quan lý thuyết p cũng ch-a tìm đ-ợc. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giả sử ta có mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên này. Khi đó hệ số t-ơng quan mẫu ký hiệu r đ-ợc tính bởi công thức:     )()( 1 2 2 1 2 2 1 . .. 11 . 1 yx k j jj k ii k i jii SS yxyx yym n xxm n yxyxm nr          (I) Trong đó:    k i ii xn n x 1 1 ;    k i ii ym n y 1 1 2 1 22 )( 1 xxm n S k i iix    ; 2 1 22 )( 1 yym n S k j jjy    ;     k i k j jiij yxm n yx 1 1 . 1 . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Chú ý: Khi tính hệ số t-ơng quan giữa X và Y nếu dùng phép đổi biến để thu gọn số liệu: h xx u ii 0 ; k yy v ii 0 (Trong đó ixx 0 có tần số in lớn nhất; jyy 0 có tần số jm lớn nhất) Khi đó hệ số t-ơng quan mẫu không thay đổi và đ-ợc tính bởi công thức: vu n n i jj jj k i n i ii ii k i n j jj n i ii jii xyvu SS vuvu n vm vm nn um um n n vm n um vum n rr . .. 11 1 2 12 2 1 12 1 11 .                                                                  (II) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.2. Tính chất của hệ số t-ơng quan mẫu i) 1r ii) Nếu X và Y là độc lập thì r = 0. iii) Nếu r = 0 thì giữa X và Y không có sự phụ thuộc t-ơng quan tuyến tính. (Chú ý rằng, khi đó có thể chúng có liên hệ phi tuyến hoặc hàm số). iv) Nếu r =  1 thì giữa X và Y có mối liên hệ hàm tuyến tính. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.3 ý nghĩa của hệ số t-ơng quan Hệ số t-ơng quan của hai biến X và Y cho ta một chỉ số đánh giá mối quan hệ tuyến tính giữa X và Y. Nó là một hệ số có giá trị tuyệt đối nằm giữa 0 và 1. Nếu hệ số t-ơng quan khá gần 0 thì có thể coi giữa X và Y không có t-ơng quan tuyến tính. Nếu hệ số t-ơng quan khá gần  1 thì quan hệ giữa X và Y xấp xỉ bởi hệ thức Y = aX + b. Trong thống kê, ng-ời ta quy -ớc rằng: Khi 3,0r thì X và Y có sự phụ thuộc t-ơng quan tuyến tính. Khi r > 0,7 (r < - 0,7) thì giữa X và Y có sự phụ thuộc t-ơng quan tuyến tính thuận (nghịch) mạnh. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.4. Cách tính hệ số t-ơng quan. Ví dụ 1) Tr-ờng hợp số liệu cho d-ới dạng sau: X 1 2 3 4 5 6 7 8 9 10 Y 2 6 7 4 8 5 13 10 14 9 Khi đó ta lập bảng tính toán rồi áp dụng công thức:     )()( 1 22 1 22 1 . .. 11 . 1 yxk j jj k ii k i jii SS yxyx yym n xxm n yxyxm n r          . Khi đó ta có: 76,0 1316.825 790 10 78 10 740 10 55 10 385 10 78 . 10 55 10 508 22                r Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn xi yi 2 ix 2 iy xi.yi 1 2 1 4 2 2 6 4 36 12 3 7 9 49 21 4 4 16 16 16 5 8 25 64 40 6 5 36 25 30 7 13 49 169 91 8 10 64 100 80 9 14 81 196 126 10 9 100 81 90 55 78 385 740 508 Kết luận: Vì r = 0,76 > 0,7, do đó giữa X và Y cho bởi mẫu trên có sự phụ thuộc t-ơng quan tuyến tính thuận mạnh. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Khi đó ta phải dùng ph-ơng pháp thu gọn số liệu bằng cách đổi biến đã biết: Chọn x0 = 26,0; y0 = 0,50; hx = 0,50; ky = 0,01 Với ph-ơng pháp đổi biến: ; 50,0 0,26  ii x u 01,0 50,0  ii y v . Các số liệu biến đổi và tính toán đ-ợc ghi tiếp vào bảng sau đây: Ví dụ 2: Tr-ờng hợp số liệu điều tra cho d-ới dạng: Xi 23,0 24,0 24,5 24,5 25,5 25,5 26,0 26,0 26,0 26,5 2,5 27,0 27,0 28,0 Yi 0,48 0,50 0,49 0,50 0,51 0,52 0,49 0,51 0,53 0,53 0,52 0,54 0,51 0,53 ni 2 4 3 2 1 1 2 1 2 1 1 2 1 3 xi yi ni ui niu 2 iiun vi nivi 2 iivn niuivi 23,0 0,48 2 -6 -12 72 -2 -4 8 24 24,0 0,50 4 -4 -16 64 0 0 0 0 24,5 0,49 3 -3 -9 27 -1 -1 1 9 24,5 0,50 2 -3 -6 18 0 0 0 0 25,5 0,51 1 -2 -2 4 1 1 1 -2 25,5 0,52 1 -1 -1 1 2 2 4 -2 26,0 0,49 2 0 0 0 -1 -2 2 0 26,0 0,51 1 0 0 0 1 1 1 0 26,0 0,53 2 0 0 0 3 6 18 0 26,5 0,50 1 1 1 1 0 0 0 0 26,5 0,52 1 1 1 1 2 2 4 2 27,0 0,54 2 2 4 8 4 8 32 16 27,0 0,51 1 2 2 4 2 2 4 4 28,0 0,53 3 4 12 48 3 9 27 36  26 -26 248 22 104 87 áp dụng công thức: vu n n i jj jj k i n i ii ii k i n j jj n i ii jii xyvu SS vuvu n vm vm nn um um n n vm n um vum n rr . .. 11 1 2 12 2 1 12 1 11 .                                                            792,0 26 22 104 26 1 26 26 .248 26 1 26 22 . 26 26 26 87 22                  r Kết luận: Với mẫu đã cho, giữa X và Y có sự phụ thuộc t-ơng quan tuyến tính thuận mạnh. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ 3: Nếu số liệu điều tra d-ới dạng bảng hai lối vào sau đây thì ta có thể thực hiện các phép tính ngay trên bảng: xi yj 1 2 3 4 mj mjyj 2 jj ym  7 1 28 1 7 49 28 6 1 18 1 6 36 18 5 1 10 2 30 3 15 75 40 4 2 16 2 8 32 16 3 3 9 3 9 27 9 mi 3 3 3 1 n = 10 45 219 mixi 3 6 9 4 22 2 ii xm 3 12 27 16 58  9 26 48 28 111 Các số ghi ở góc bên phải của mỗi ô là tích của xiyj với số lần lặp. Tổng các số đó trong mỗi cột hoặc mỗi hàng đ-ợc ghi ở hàng và cột cuối cùng. Theo bảng trên, ta có:   22iixm ;   582iixm ;   45ii ym ;   219 2 jj ym ;  111jiij yxm Vậy:     )()(22 1 2 2 1 . .. 11 . 1 yx jj k ii k i jii SS yxyx yym n xxm n yxyxm nr         95,0 58,12 12 10 45 219 10 22 .1058 10 45 . 10 22 10 111 22                 Vậy hệ số t-ơng quan của mẫu trên là r = 0,95. (t-ơng quan tuyến tính thuận mạnh). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.5. Đ-ờng hồi quy tuyến tính thực nghiệm Giả sử có bảng phân phối hai chiều của cặp biến ngẫu nhiên (X, Y). Biểu diễn các điểm (xi, yj) trên mặt phẳng tọa độ đ-ợc một tập hợp các điểm gọi là tr-ờng t-ơng quan. Ta có biểu diễn mô phỏng sau đây: ******************** Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.6. Hàm hồi quy Cho cặp đại l-ợng ngẫu nhiên (X, Y). Xét kỳ vọng có điều kiện E(Y/X=x). Nó cho ta trung bình của Y khi X lấy giá trị x. Do đó, kỳ vọng có điều kiện này phụ thuộc vào giá trị của X, nó có thể coi là một hàm của x và đó đ-ợc gọi là hàm hồi quy của Y đối với X. T-ơng tự hàm hồi quy của X đối với Y E(X/Y=y). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Nếu đồ thị của hàm hồi quy là đ-ờng thẳng thì ta nói đó là hàm hồi quy tuyến tính. Để vẽ đ-ờng hồi quy tuyến tính thực nghiệm của Y đối với X ta nối các điểm   ixi yx , . Trong đó ix y là trung bình các giá trị của y trong mẫu ứng với giá trị X = xi. Đ-ờng hồi quy thực nghiệm của X đối với Y vẽ bằng cách nối các điểm  jyj xy ; . Trong đó jyx là trung bình các giá trị của X ứng với Y = yj. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8. 7. Ph-ơng trình đ-ờng hồi quy tuyến tính Khi các điểm của đ-ờng hồi quy thực nghiệm xấp xỉ thẳng hàng thì có thể coi là hồi quy tuyến tính và có biểu diễn bởi phuơng trình Y = aX + b. Tìm a và b ph-ơng pháp “bình phương bé nhất”, tức là giải hệ:            ii iiii ybnxa yxxbxa . .2 (*) Trong đó xi là các giá trị của ),1( niX  yi là các giá trị trung bình của Y khi X lấy giá trị xi Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Sự t-ơng quan giữa trọng l-ợng X (tính theo kg) và chiều dài lồng ngực Y (cm) của 300 con bò cho bởi bảng sau: 225 275 325 375 425 475 525 575 mj jyX / 195 1 1 575 185 1 9 15 2 27 508 175 4 25 35 21 9 1 95 430 165 3 40 44 24 8 119 273 155 1 17 17 17 1 53 325 145 2 1 1 4 263 135 1 1 225 mi 4 21 62 86 61 38 24 4 300 xy / 145 156 160 166 170 175 182 185 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ta lập bảng tính toán sau đây: xi yi 2 ix xiyi 225 145 50625 32625 275 156 75625 42900 325 160 105625 52000 375 166 140625 62250 425 170 180625 72250 475 175 225625 83125 525 182 275625 95550 575 185 330625 106375 3200 1339 1385000 547075 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Từ đó ta có hệ ph-ơng trình: 1.385.000.a + 3200b = 547.075 3200.a + 8b = 1339 Giải ra tìm đ-ợc a = 0,11; b = 123 Vậy ph-ơng trình hồi quy tuyến tính của lồng ngực trung bình Y với trọng l-ợng X của đàn bò là: 12311,0  XY . Hệ số a trong (*) gọi là hệ số hồi quy của Y theo X. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn 8.8. Tìm ph-ơng trình hồi quy tuyến tính dựa vào hệ số t-ơng quan mẫu 8.8.1. Tìm ph-ơng trình hồi quy tuyến tính của Y theo X Ta sử dụng công thức: ).(. )( )( xx S S ryy x y  8.8.2. Tìm ph-ơng trình hồi quy tuyến tính của X theo Y Ta sử dụng công thức: ).(. )( )( yy S S rxx y x  Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Ví dụ: Theo dõi sự phụ thuộc giữa mức suy giảm hàm l-ợng đ-ờng trong mía X(%) và thời gian chờ chế biến (t) ta thu đ-ợc kết quả sau đây: X 30 30 35 35 40 40 40 45 45 45 50 50 t 2 4 4 6 4 6 8 6 8 10 8 10 m 1 1 3 1 1 2 2 2 3 1 1 2 Hãy tìm hệ số t-ơng quan mẫu giữa X và t. Viết ph-ơng trình hồi quy của X theo t và ph-ơng trình tuyến tính của t theo X? Cho nhận xét? Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Giải: Căn cứ vào số liệu đã cho, dùng phép đổi biến để thu gọn số liệu: Chọn x0 = 40; t0 = 6; hk = 5; kt = 2. ; 5 400    i x i i x h xx u 2 60    i t i i t k tt v áp dụng công thức: vu n n i jj jj k i n i ii ii k i n j jj n i ii jii xyvu SS vuvu n vm vm nn um um n n vm n um vum n rr . .. 11 1 2 12 2 1 12 1 11 .                                                            Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Các b-ớc tính toán đ-ợc thể hiện trong bảng d-ới đây: xi ti mi ui vi miui 2 iium mivi 2 iivm miuivi 30 2 1 -2 -2 -2 4 -2 4 4 30 4 1 -2 -1 -2 4 -1 1 2 35 4 3 -1 -1 -3 3 -3 3 3 35 6 1 -1 0 -1 1 0 0 0 40 4 1 0 -1 0 0 -1 1 0 40 6 2 0 0 0 0 0 0 0 40 8 2 0 1 0 0 2 2 0 45 6 2 1 0 2 2 0 0 0 45 8 3 1 1 3 3 3 3 3 45 10 1 1 2 1 1 2 4 2 50 8 1 2 1 2 4 1 1 2 50 10 2 2 2 4 8 4 8 8  20 4 30 5 27 24 Khi đó: 8398,0 42,27 23 20 5 27. 20 1 20 4 30. 20 1 20 5 . 20 4 20 24 22                r Nhận xét: Với bài toán trên ta có thể giải bằng ph-ơng pháp xây dựng bảng hai lối vào nh- sau: (Tính tiện lợi dành cho độc giả nhận xét) t x 30 35 40 45 50 2 1 4 1 3 1 6 1 2 2 8 2 3 1 10 1 2 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Dùng ph-ơng pháp đổi biến ta có: u v -3 -2 -1 0 1 mi mivj mjvj 2  jiij vum -3 1 9 1 -3 9 9 -2 1 6 3 12 1 2 5 -10 20 18 -1 1 2 2 2 2 0 5 -5 5 4 0 2 0 3 0 1 0 6 0 0 0 1 1 0 2 2 3 3 3 2 mj 2 4 5 6 3 mj uj -6 -8 -5 0 3 mjuj 2 36 16 5 0 3  jiij vum 15 14 4 0 2 33 Chú ý: Để viết ph-ơng trình hồi quy tuyến tính của Y theo X (hoặc X theo Y) khi đã tính đ-ợc hệ số t-ơng quan mẫu, ta sử dụng công thức: Ph-ơng trình hồi quy của y theo x: ).(. )( )( xx S S ryy x y  ; (Hoặc ph-ơng trình hồi quy của x theo y: ).(.( )( )( yy S S rxx y x  ) Nếu đã dùng phép đổi biến thì phải quay lại biến ban đầu bằng cặp công thức:       vkyy uhxx y x . . 0 0      )()( )()( . . vyy uxx SkS ShS Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Với ví dụ trên ta có: 41 5 1 .540 5 1 20 4  xx 5,6 4 1 .26 4 1 20 5  tv 274,5.54,52,29)2,0.(2030).( )( 222 )(   xiiu SunumS 14,1007,5.207,527,25)25,0.(2027).( )( 222 )(  tiiv SvnvmS Vậy ph-ơng trình hồi quy của x theo t là:  )5,6( 14,10 27 .8398,041).(. )( )( txtt S S rxx y x 48,26234,2)5,6(66,2.8398,041  ttx Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn Nhận xét: vì r = 0,8398 > 0,7 do đó X và t có sự phụ thuộc tuyến tính mạnh. Nghĩa là nếu để càng lâu sau khi thu hoạch mới chế biến thì hàm l-ợng đ-ờng càng giảm. Vậy ph-ơng trình hồi quy của t theo x là: (Coi nh- bài tập áp dụng). ) .( . ) ( ) ( x x S S r t t x t   

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_xac_suat_thong_kep2_6125.pdf
Tài liệu liên quan