Nhận xét: vì r = 0,8398 > 0,7 do đó X và t có sự phụ thuộc
tuyến tính mạnh. Nghĩa là nếu để càng lâu sau khi thu hoạch
mới chế biến thì hàm l-ợng đ-ờng càng giảm.
138 trang |
Chia sẻ: tuanhd28 | Lượt xem: 1751 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê - Nguyễn Độc Lập, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
và 2t để cho 11)( tUP và 22 )( tUP
và 21 tt .
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Suy ra: 1)( 21 tUtP
1)
)(
( 21 tn
ax
tP
Hay
112 t
n
Xat
n
XP
Biểu thức cuối cùng cho biết tham số a của đại l-ợng
ngẫu nhiên sẽ nằm trong khoảng:
12
;
t
n
Xt
n
X với độ tin cậy )1( (II)
Nhận xét: (II) chỉ cho ta một khoảng tin cậy tổng quát của a.
Với độ tin cậy )1( ta có vô số khoảng tin cậy t-ơng -úng vì
có vô số cách chọn 1 , 2 dẫn đến vô số 1t ; 2t . Trong thực
tế, biểu thức (II) chỉ đ-ợc sử dụng trong một số tr-ờng hợp
đặc biệt sau:
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
a) Khoảng tin cậy đối xứng: Nếu chọn
2
21
, khi đó từ
(II) suy ra khoảng tin cậy của a là:
2
;
2
t
n
Xt
n
X (III)
Trong đó
2
t là giá trị thỏa mãn
2
1
2
t , hay
2
t thỏa mãn:
2
1
2
t , trong đó:
x u
duex
0
2
2
2
1
)(
(Hàm )(x gọi là hàm
Laplace).
Nếu đặt
2
t
n
thì biểu thức (III) sẽ là: XX ; và ta gọi
là độ chính xác của -ớc l-ợng, hay sai số cho phép của
-ớc l-ợng. Nó phản ánh mức độ sai lệch giữa số trung bình
(a) của đại l-ợng ngẫu nhiên X so với trung bình mẫu X với
độ tin cậy 1 .
Ví dụ: Trọng l-ợng của một loại sản phẩm là đại l-ợng ngẫu
nhiên phân phối theo quy luật chuẩn với độ lệch tiêu chuẩn là
1 gam. Cân thử 25 sản phẩm loại này ta có kết quả:
Trọng l-ợng (g) 18 19 20 21
Số sản phẩm 3 5 15 2
Với độ tin cậy 95,01 , hãy tìm khoảng tin cậy đối
xứng của trọng l-ợng trung bình của loại sản phẩm nói trên?
Giải: Gọi X là "Trọng l-ợng sản phẩm". Theo giả thiết
)1,(: aNX . Ta cần chỉ ra khoảng tin cậy đối xứng của a với độ
tin cậy 95,01 .
Khoảng tin cậy cần tìm có dạng: ),( XX . Trong đó X
là trung bình mẫu ngẫu nhiên kích th-ớc 25n và
2
t
n
.
Ta thấy: ;1 25n ; 96,1
2
475,0
2
95,0
2
1
2
tt (phụ lục
2) (Bảng Laplat).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Chú ý: Nếu dùng bảng phân vị chuẩn thì: 975,0
2
195,01
Tra bảng phân vị chuẩn (phụ lục 3) ta cũng có U0,975 = 1,96
Suy ra: 392,096,1.
25
1
Từ mẫu đã cho, tính 64,19
25
2.2115.205.193.184
1
i
x
Vậy với độ tin cậy 0,95, khoảng tin cậy đối xứng của a
(tức là trọng l-ợng trung bình) của sản phẩm trên là (19,64 -
0,392; 19,64 + 0,392). Hay: (19,248 < a < 20,032).
Chú ý:* Không thể viết: P(19,248 < a < 20,032) = 0,95 vì độ
tin cậy gắn với khoảng tin cậy ngẫu nhiên chứ không gắn với
mẫu cụ thể, Mặt khác do a là hằng số nên nó chỉ có thể thuộc
hoặc không thuộc khoảng: (19,248; 20,032). Tức là với một
mẫu cụ thể thì biến cố (19,248 < a < 20,032) không phải là
biến cố ngẫu nhiên. Nó sẽ là biến cố chắc chắn hoặc nó là
biến cố không thể có.
* Trong công thức:
2
t
n
, nếu tăng cỡ mẫu lên và giữ
nguyên độ tin cậy 1 cho trứoc thì (sai số cho phép) giảm
đi, tức là độ chính xác của -ớc l-ợng tăng lên. Nếu tăng độ tin
cậy 1 lên mà vẫn giữ nguyên cỡ mẫu n thì giá trị của phân
vị chuẩn cũng tăng lên. Do đó cũng tăng lên và làm cho độ
chính xác giảm đi.
Ví dụ: Trong ví dụ trên nếu yêu cầu độ chính xác của -ớc
l-ợng chỉ là 0,1, giữ nguyên độ tin cậy 95,01 thì cỡ mẫu
cần phải xác định là:
38513841
1,0
96,1.1
12
.
2
22
2
0
22
t
n
Tức là để sai số cho phép giảm từ 0,392 về 0,1 thì cỡ mẫu
tăng từ 25 đến 385.
* Xác định cỡ mẫu
Nếu ấn định độ tin cậy ( 1 ) và sai số cho phép không v-ợt
quá 0 cho tr-ớc thì kích th-ớc mẫu cần phải điều tra đ-ợc
tính bởi công thức: 12
.
2
0
22
t
n
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
b) Khoảng tin cậy bên phải: (-ớc l-ợng giá trị tối thiểu của
a)
Nếu lấy 01 ; 2 . Khi đó khoảng tin cậy của a là:
at
n
X )(
c) Khoảng tin cậy bên trái (-ớc l-ợng giá trị tối đa của a)
Nếu lấy 02 ; 1 . Khi đó khoảng tin cậy của a là:
)(
t
n
Xa
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
2. Tr-ờng hợp ch-a biết ph-ơng sai D(X)= 2
a) Nếu cỡ mẫu n <30. Chọn thống kê: n
S
ax
T
'
)(
Ta đã biết thống kê T tuân theo quy luật Student với (n -1)
bậc tự do. Khi đó:
Khoảng tin cậy của a với độ tin cậy )1( là:
)1(
1
'
)1(
1
'
12
; nn t
n
S
Xt
n
S
X
Khoảng tin cậy bên phải của a (-ớc l-ợng giá trị tối thiểu)
khi ;01 2 là:
at
n
S
X n )1(
1
'
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Khoảng tin cậy bên trái của a (-ớc l-ợng giá trị tối đa) khi
;02 1 là:
)1(
1
'
nt
n
S
Xa
Trong đó
)1( nt ,
)1(
2/1
nt đ-ợc xác định từ bảng phân phối Student
với (n -1) bậc tự do. Đặt 2I và gọi là độ dài của khoảng tin
cậy, nó có độ dài ngắn nhất khi khoảng tin cậy là đối xứng;
)1(
2
1
'
nt
n
S
còn gọi là độ chính xác của -ớc l-ợng.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Theo dõi mức xăng hao phí (X) cho một loại ô tô đi từ A
đến B thu đ-ợc bảng số liệu sau:
Mức xăng
(X)
19,0 - 19,5 19,5 - 20,0 20,0 - 20,5 20,5 - 21,0
Số lần đi 2 10 8 5
Với độ tin cậy 95,01 ; Hãy tìm khoảng tin cậy đối
xứng của mức xăng hao phí trung bình, mức xăng hao phí
trung bình tối thiểu, tối đa khi đi từ A đến B. Biết rằng X tuân
theo quy luật phân phối chuẩn.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: Mức xăng hao phí trung bình chính là aXE )( cần -ớc
l-ợng trong phân phối chuẩn, tr-ờng hợp ph-ơng sai ch-a
biết và cỡ mẫu 3025 n .
Tra bảng Student 064,2
24
975,0
)1(
2
1
tt n ; 711,1
24
5,0
)1( tt n
Căn cứ vào số liệu đã cho, ta lập bảng để tính X và
X(lít) ti ni d
tt
h i
i
0
nihi
2
iihn
19,0 - 19,5 19,25 2 -1 -2 2
19,5 - 20,0 19,75 10 0 0 0
20,0 - 20,5 20,25 8 1 8 8
20,5 - 21,5 20,75 5 2 10 20
25 16 30
Ta thấy khoảng 2 có ni = 10 lớn nhất, chọn t0 = 19,75, d = 0,5.
Khi đó: 07,2016.
25
5,0
75,19
4
1
0
i
ii
hn
n
d
tX
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
2058,01976,0.
24
25
1976,016.
25
1
30
25
25,01 2'2
4
1
2
4
1
2
2
2
Shn
n
hn
n
d
S
i i
iiii
Vậy: 4536,02058,0' S .Vậy với độ tin cậy 95,01 qua mẫu
nói trên, mức xăng hao phí trung bình là:
)26,20,283,19(
25
4536,0
.064,207,20
25
4536,0
.064,207,20
aa
T-ơng tự, mức xăng hao phí tối đa sẽ là:
)05,20(
25
45,0
711,107,20
2'
)1(
a
n
S
tXa n
T-ơng tự, mức xăng hao phí tối thiểu sẽ là:
)(
2'
)1( a
n
S
tX n )
25
45,0
711,107,20( a )92,19( a
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 2: Qua một mẫu điều tra về Urê máu của 10 ng-ời,
ng-ời ta thu đ-ợc kết quả sau:
Đơn vị (cg/1): 24; 40; 30; 19; 48; 32; 35; 21; 18; 40.
Hãy -ớc l-ợng chỉ ra khoảng tin cậy đối xứng của số trung
bình về Urê máu của đám đông với mức ý nghĩa %5 , và
%1 . Giả thiết Urê máu có phân phối chuẩn.
Giải: Gọi X là Urê máu ng-ời. Theo giả thiết ),(; 2aNX , trong
đó a và 2 đều ch-a biết cần phải -ớc l-ợng dựa trên một mẫu
có kích th-ớc 30n .
Tra bảng Student 265,2
9
975,0
1
2/
tt n và 25,3
9
95,0
1
2/
tt n
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Từ mẫu đã cho ta tính đ-ợc:
70,30)4018...194024.(
10
1
10
1 10
1
i
iXX
10
1
'22' 3,1033,103)(
9
1
i
i SXXS
áp dụng công thức tìm khoảng tin cậy đối xứng:
)1(
2/1
'
)1(
1
'
;
2/
nn t
n
S
Xt
n
S
X
. Khi đó khoảng tin cậy cần tìm
của a với mức ý nghĩa 05,0 hay với độ tin cậy 0,95% là:
)95,37;4,23(262,2.
10
3,103
70,30;262,2.
10
3,103
70,30
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Khi đó khoảng tin cậy cần tìm của a mức ý nghĩa 01,0 hayvới
độ tin cậy 0,99% là:
)1,41;3,20(25,3.
10
3,103
70,30;25,3.
10
3,103
70,30
Nếu giả thiết ),(: 2aNX mà cả a và 2 đều ch-a biết. Bài
toán đặt ra là phải tìm kích th-ớc (cỡ) mẫu tối thiểu cho một
cuộc điều tra về kỳ vọng a. Với độ tin cậy )1( đa đ-ợc đặt ra
và sai số cho phép không v-ợt quá số 0 cho tr-ớc, khi đó
cỡ mẫu tối thiểu đ-ợc tính bởi công thức: 12
1.2
0
2'
n
t
S
N
.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Phỏng vấn 5 gia đình có 6 nguời về chi phí hàng
tháng cho nhu cầu điện thoại, ng-ời ta thu đ-ợc số liệu
sau: 150, 180, 200, 250, 300 (đơn vị ngàn đồng). Vậy phải
phỏng vấn thêm bao nhiêu gia đình cùng loại để với độ
tin cậy 95% thì sai số của việc -ớc l-ợng chi phí trung
bình hàng tháng cho nhu cầu trên không v-ợt quá 30
ngàn đồng. Giả sử chi phí cho nhu cầu trên là đại l-ợng
ngẫu nhiên có phân phối chuẩn.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: ;5n 216)300250200180150(
5
11 5
1
i
iX
n
X
3530)216300(...)216180()216150(
4
1
)(
1
1 222
55
1
22'
i
i
XX
n
S
Sai số cho phép của -ớc l-ợng đ-ợc ấn định 3030 0
Tra bảng Fishir-Student ta có: 776,2
4
975,0 t
Theo công thức:
12 1.2
0
2'
nt
S
N
311]18,30[1)776,2(
30
3530 2
2
N
Nh- vậy phải phỏng vấn thêm 26 gia đình nữa. (Vì đã hỏi
5 gia đình)
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
b) Nếu cỡ mẫu 30n . Nh- ta đã biết, phân phối Student xấp
xỉ phân phối chuẩn khi n khá lớn, trong thực tế áp dụng cỡ
mẫu 30n . Chọn thống kê: n
S
ax
U
'
)(
Thống kê U xấp xỉ phân phối chuẩn hóa khi n đủ lớn ( 30n ).
Khi đó:
Khoảng tin cậy của a với độ tin cậy )1( là:
12 1
'
1
'
; U
n
S
XU
n
S
X
Khoảng tin cậy đối xứng của a khi
2
21
là:
2/1
'
2/1
'
; U
n
S
XU
n
S
X
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Khoảng tin cậy bên phải của a (-ớc l-ợng giá trị tối thiểu)
khi 01 ; 2 là:
aU
n
S
X 1
'
Khoảng tin cậy bên trái của a (-ớc l-ợng giá trị tối đa) khi
02 ; 1 là:
1
'
U
n
S
Xa
Trong đó 2/1, UU đ-ợc xác định từ bảng giá trị của hàm
Laplatce.
Đặt 2I và gọi là độ dài của khoảng tin cậy, nó có độ dài
ngắn nhất khi khoảng tin cậy là đối xứng;
2
1
'
(
U
n
S
còn gọi là
độ chính xác của -ớc l-ợng).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Để -ớc l-ợng năng suất trung bình của giống lúa A tại
một vùng, ng-ời ta gặt ngẫu nhiên 100 thửa ruộng ở vùng đó
và thu đ-ợc bảng số liệu sau:
Năng suất
(tạ/ha)
40 -
42
42 -
44
44 -
46
46 -
48
48 -
50
50 -
52
Số thửa (ni) 7 13 25 35 15 5
Biết năng suất lúa tuân theo quy luật phân phối chuẩn.
1) Hãy -ớc l-ợng năng suất trung bình của giống lúa đó trong
vùng đang xét bằng khoảng tin cậy đối xứng với độ tin cậy
0,95.
2) Cũng với độ tin cậy 0,95, hãy -ớc l-ợng năng suất trung
bình tối thiểu của giống lúa A tại vùng đó.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: Gọi X là năng suất giống lúa A tại vùng đang xét.
),(: 2aNX . Cả a và 2 đều ch-a biết, ta cần -ớc l-ợng
khoảng cho kỳ vọng (a) bằng khoảng tin cậy đối xứng đối
với mẫu có kích th-ớc lớn )100( n
áp dụng công thức:
2/1
'
2/1
'
;
U
n
S
XU
n
S
X
Tra bảng hàm Laplatce ta có: 96,1975,02/1 UU .
Với số liệu đã cho, ta lập bảng tính toán sau để tính ';SX
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
X(tạ/ha) ni 2
0tth ii
nihi
2
ih
2
iihn
40 - 42 7 -3 -21 9 63
42 - 44 13 -2 -26 4 52
44 - 46 25 -1 -25 1 25
46 - 48 35 0 0 0 0
48 - 50 15 1 15 1 15
50 - 52 5 2 10 4 20
n = 100 -47 175
Khoảng (46 - 48) có tần số ni = 35 lớn nhất. Do đó ta
chọn t0 = 47; d = 2.
6
1
0
06,46)47(
100
2
47
100
2
i
ii
hntX
1164,6)47(
100
1
175
100
41 2
2
6
1
6
1
2
2
i i
iiii hn
n
hn
n
d
S
48,2178,6178,61164,6
99
100
1
2''22'
SSS
n
n
S
1) Vậy khoảng tin cậy đối xứng của năng suất trung bình
giống lúa A với độ tin cậy 0,95 là:
)55,4658,45(96,1.
100
48,2
06,4696,1.
100
48,2
06,46
aa (tạ/ha)
2) Ta có năng suất tối thiểu với độ tin cậy 0,95 tính bởi:
aU
n
S
X 1
'
.
Tra bảng )64,45(645,1.
100
48,2
06,46645,195,0
aaU (tạ/h).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
6.2.3. -ớc l-ợng khoảng cho kỳ vọng a của đại l-ợng ngẫu nhiên
X khi ch-a biết rõ quy luật phân phối, dựa vào mẫu lớn.
Giả sử từ một tổng thể, dấu hiệu cần nghiên cứu nào đó
đ-ợc coi nh- đại l-ợng ngẫu nhiên X phân phối theo một quy luật
khác với quy luật chuẩn. X có kỳ vọng toán là a mà ta cần -ớc
l-ợng.
Từ X có mẫu ngẫu nhiên có kích th-ớc n đủ lớn W = (X1,
X2,..., Xn). Dựa vào định lý Lindenbreg-Lewy: "Nếu các đại l-ợng
ngẫu nhiên X1, X2,..., Xn độc lập, có cùng kỳ vọng a và ph-ơng sai
2 thì các đại l-ợng ngẫu nhiên:
n
ax
T
)(
1
và n
S
ax
T
'2
)(
sẽ có phân phối chuẩn hóa N(0,1)
khi n “đủ lớn".
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Dựa vào định lý trên, để -ớc l-ợng a của X ta có thể
chọn thống kê:
n
ax
T
)(
1
(Nếu đã biết ph-ơng sai 2 của X)
n
S
ax
T
'2
)(
(Nếu ch-a biết ph-ơng sai 2 của X)
Ta đã biết, nếu kích th-ớc n đủ lớn, cả hai thống kê trên
đều có phân phối xấp xỉ chuẩn hóa N(0,1). Do đó, cách -ớc
l-ợng a bằng khoảng tin cậy vẫn tiến hành nh- ta đã biết.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Kiểm tra 100 sản phẩm của một nhà máy, thấy trọng
l-ợng bình quân là 20kg và S = 1,5kg.
a) Nếu cho rằng trọng l-ợng bình quân đã thu đ-ợc sai khác
với trọng l-ợng bình quân thật sự không quá 0,3 kg thì độ
tin cậy của -ớc l-ợng phải bằng bao nhiêu?
b) Từ mẫu sơ bộ đã có, hỏi phải kiểm tra một mẫu là bao
nhiêu sản phẩm để kết quả bình quân thu đ-ợc sai khác với
trọng l-ợng bình quân thực sự không quá 0,3 kg với độ tin
cậy 0,9973.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
a) Gọi X là trọng l-ợng của loại sản phẩm. Trọng l-ợng bình
quân thực sự chính là kỳ vọng a của X. Với n = 100 thì thống
kê n
S
ax
T
'
)(
đ-ợc coi là có phân phối chuẩn hóa N(0,1). Ta
có khoảng tin cậy đối xứng của a với độ tin cậy )1( là:
2/
'
2/
'
; U
n
S
XU
n
S
X
Theo đầu bài, sai số cho phép của -ớc l-ợng là 3,0 . Suy ra:
.2
5,1
100.3,0
3,0 2/2/
'
UU
n
S
Vì ).2(2)(21
2
1
)( 2/2/
UU
= 2.0,47725=0,9545. Đây chính là độ tin cậy cần tìm.
Giải:
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
b) Với ý định chọn mẫu lớn ).100( n Sử dụng công thức:
.12 2/2
0
2'
U
S
N Ta có:
2/0
' ;3,0;5,1 USS là số sao cho:
3
2
9773,0
)(
2
1
)( 2/2/2/
UUU
(Nhờ tra bảng Laplatce). Khi đó: 2259.
)3,0(
)5,1(
2
2
2
2/2
0
2'
U
S
.
Vậy cần kiểm tra một mẫu ít nhất là 225 sản phẩm để
bình quân thu đ-ợc (20kg) khác với bình quân thật sự của sản
phẩm không quá 0,3 kg, với độ tin cậy 0,9973.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
6.2.4. -ớc l-ợng khoảng cho tỷ lệ hay xác suất
Khi n đủ lớn, đại l-ợng thống kê
)1(
)(
ff
npf
T
xấp xỉ phân
phối của đại l-ợng ngẫu nhiên có phân phối chuẩn hóa
N(0,1). Trong đó: ,
1
1
XX
n
f
n
i
i
f là tỷ lệ mang đặc tính A
trong mẫu ngẫu nhiên đ-ợc lấy ra. pfE )( và
n
pp
fD
)1(
)(
.
Khi đó khoảng tin cậy đối xứng của p với độ tin cậy )1( là:
.
)1(
;
)1(
2/2/
U
n
ff
fU
n
ff
f
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Đặt: 2/
)1(
U
n
ff
, khi đó khoảng tin cậy đối xứng của p
với độ tin cậy )1( là:
Khoảng tin cậy bên phải (-ớc l-ợng giá trị tối thiểu) của p:
pU
n
ff
f
1(
Khoảng tin cậy bên trái (-ớc l-ợng giá trị tối đa) của p:
U
n
ff
fp
)1(
Chú ý: Khi áp dụng các công thức trên, để kết quả đ-ợc
chính xác ta cần có n lớn, f không quá nhỏ hoặc quá lớn.
Thực tế, ta áp dụng khi: .10)1(;10;9,01,0;100 fnnffn (*)
Kích th-ớc của mẫu cần phải điều tra đảm bảo cho việc -ớc
l-ợng xác suất p có độ tin cậy )1( và sai số cho phép
không v-ợt quá 0 là:
1
)1( 2
2/2
0
1
U
ff
N
(Dùng khi đã có mẫu định h-ớng và f là tần suất hay tỷ lệ
của mẫu đó).
Với: 2/U thỏa mãn
2
1)( 2/
U hay
2
1
)( 2/
U
1
4
1 2
2/2
0
2
UN
(Dùng khi ch-a có hoặc không có mẫu định h-ớng và f là tần
suất hay tỷ lệ của mẫu đó)
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 1: Kiểm tra ngẫu nhiên 400 sản phẩm do một máy sản
xuất thấy có 20 phế phẩm. Với độ tin cậy 0,95, hãy -ớc l-ợng
tỷ lệ phế phẩm tối đa của máy đó.
Giải: Gọi p là tỷ lệ phế phẩm của máy đó và gọi f là tỷ lệ phế
phẩm của máy đó ở mẫu có kích th-ớc n = 400. ứng với độ
tin cậy 95,01 thì khoảng tin cậy bên trái (-ớc l-ợng giá trị
tối đa) của p là:
U
n
ff
fp
)1(
Ta có ;645,105,0 U 05,0400/20 f .
Vậy tỷ lệ phế phẩm p tối đa của máy cần -ớc l-ợng là:
0679,0645,1.
400
95,0.05,0
05,0
pp
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 2: Cần phải chọn một mẫu kích th-ớc bằng bao nhiêu
để với độ tin cậy 0,95 thì tỷ lệ hạt giống không đạt tiêu chuẩn
của mẫu đó khác với tỷ lệ thật của toàn bộ hạt giống không
v-ợt quá 0,05.
Giải: Tr-ờng hợp này ta ch-a có mẫu cụ thể (mẫu định
h-ớng); 05,00
Độ tin cậy ấn định 96,195,01 2/ U . Kích th-ớc của mẫu
cần phải điều tra thỏa mãn đầu bài là:
385116,3841)96,1(
)05,0.(4
1
1
4
1 2
2
2
2/2
0
2
NUN
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 3: Điều tra tình hình mắc bệnh b-ớu cổ ở một vùng
dân c- trên một mẫu gồm 500 ng-ời (nữ, tuổi từ 30 đến 50),
thấy có 60 ng-ời mắc bệnh. Nếu cho rằng đối với dân (là nữ,
tuổi từ 30 đến 50) ở vùng đó, độ sai khác giữa tỷ lệ không bị
mắc bệnh thực tế với tỷ lệ thu đ-ợc ở mẫu không v-ợt quá
3% thì độ tin cậy của -ớc l-ợng phải là bao nhiêu?
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: Gọi p là tỷ lệ không bị mắc bệnh b-ớu cổ của dân c- vùng
đang xét.
Ta cần -ớc l-ợng khoảng cho p.
Tỷ lệ mắc bệnh ở mẫu là 12,0
500
60
)1( f . Suy ra tỷ lệ không
mắc bệnh ở mẫu là: .88,0f
Vì 500n ; 9,01,0 f ; 10nf ; 10)1( fn . (Thỏa mãn chú ý (*)).
Theo giả thiết, sai số cho phép là 03,0 .
Từ: 06,2
325,0
67,0
12,0.88,0
500.03,0
)1(
.)1(
2/2/
ff
n
UU
n
ff
Tra bảng 483,0)06,2()( 2/ U Độ tin cậy .96,0)06,2(.2)1(
Kết luận: Dựa vào cuộc điều tra đã tiến hành thì với độ tin cậy
0,96, khoảng tin cậy đối xứng của p là: (0,88 - 0,03 < p < 0,88 +
0,03). Hay: (0,85 < p < 0,91).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 4: Để -ớc l-ợng cá trong hồ, ng-ời ta đánh lên 2000
con, đánh dấu chúng, rồi thả xuống. Sau một thời gian, để số
cá đã đánh dấu phân tán t-ơng đối đồng đều trong hồ, ng-ời
ta lại đánh lên một mẫu n = 400 con thì thấy có 80 con bị
đánh dấu. Với độ tin cậy 0,90, hãy -ớc l-ợng số cá hiện có
trong hồ?
Giải: Gọi số cá trong hồ cần -ớc l-ợng là N. Tỷ lệ cá bị đánh
dấu trong hồ là
N
p
2000
. Trong mẫu 400 con cá, có 80 con bị
đánh dấu. Do đó tỷ lệ f (cá bị đánh dấu ở mẫu) là: 20,0
400
80
f .
Ta chú ý rằng n = 400; 0,1 10; n.(1 - f) > 10.
Vậy chú ý (*) đ-ợc thỏa mãn
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Với độ tin cậy đã ấn định:
645,145,0)(9,01 975,02/2/ UUU .
Khoảng tin cậy đối xứng của p ứng với độ tin cậy 0,90 là:
2/2/
)1()1(
U
n
ff
fpU
n
ff
f . Khi đó:
645,1.
400
8,0.2,0
2,0645,1.
400
8,0.2,0
2,0 p ).233,0167,0( p
Từ:
N
p
2000
, suy ra: (8.583 < N < 11.976).
Vậy với độ tin cậy 0,90, số cá trong hồ có khoảng tử 8.583
đến 11.976 con.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ch-ơng VII
Kiểm định giả thiết thống kê
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Đặt vấn đề:
Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề
nào đó. Ví dụ: so sánh tham ẩn của một phân phối nào đó
(có thể là kỳ vọng, ph-ơng sai, xác suất...). Muốn vậy, ta
th-ờng khảo sát các mẫu và nhận thấy có sự sai khác nh-
trọng l-ợng trung bình giữa các mẫu thu đ-ợc, chiều cao của
giữa các nhóm thanh niên. Nếu sự sai khác đó nhỏ thì có thể
coi là sự ngẫu nhiên. Ng-ợc lại, nếu sự sai khác đó đủ lớn thì
không thể cho là ngẫu nhiên đ-ợc mà có sự sai khác thật sự
giữa các đám đông (tổng thể).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Vấn đề đặt ra là: ta phải lựa chọn một trong hai giả thiết
để khả năng đúng cao hơn, khả năng sai thấp hơn. Ta có
định nghĩa sau:
Định nghĩa: Bất kỳ giả thiết nào nói về các tham số, dạng
quy luật phân phối hoặc tính độc lập của các đại l-ợng ngẫu
nhiên đều đ-ợc coi là giả thiết thống kê.Việc tìm ra kết luận
về tính thừa nhận đ-ợc hay không thừa nhận đ-ợc của giả
thiết đ-ợc gọi là kiểm định.
Giả thiết cần kiểm định gọi là giả thiết không và ký hiệu là H0
(viết tắt của Hypothesis)
Giả thiết đối lập với H0 gọi là đối thiết và ký hiệu là H1 (có
sách viết H, H ).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Nếu giả sử cần nghiên cứu tham số nào đó của đại
l-ợng ngẫu nhiên và có cơ sở nào đó để nêu giả thiết 0 .
Khi đó cặp giả thiết và đối thiết sẽ là cặp: 00 : H ; 01 : H
hoặc 00 : H ; 01 : H
hoặc 00 : H ; 01 : H
Để giải quyết bài toán trên, thông tin duy nhất mà
chúng ta có là một mẫu ngẫu nhiên. Kiểm định một giả thiết
là căn cứ vào mẫu thu đ-ợc để quyết định nên bác bỏ hay
chấp nhận giả thiết đó.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
7.1. Quy tắc kiểm định giả thiết
Muốn kiểm định một giả thiết liên quan đến quy luật của
đại l-ợng ngẫu nhiên X. Ta lập mẫu ngẫu nhiên kích th-ớc n :
),...,,( 21 nx xxxW . Dựa trên mẫu đó, chọn lập thống kê
),,...,,(,( 21 nxxxfXG . Với giả thiết H0 đã nêu, thống kê G có
một phân phối xác suất nhất định và có thể tính toán đ-ợc.
Thống kê G gọi là tiêu chuẩn kiểm định Khi đó với xác
suất cho tr-ớc ( gọi là mức ý nghĩa của kiểm định, với
l-u ý rằng th-ờng rất nhỏ), ta sẽ tìm đ-ợc G1 và G2 sao
cho:
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
P(G1 < G < G2) = 1 - ; (1 - : gọi là độ tin cậy)
Các số G1, G2 đ-ợc xác định bởi P(G G2) = /2
Với G đ-ợc tính theo mẫu trên có thể xảy ra:
1) Nếu G (G1, G2) ta chấp nhận H0
2) Nếu G (G1, G2), tức là hoặc (G > G2) hoặc (G < G1)
ta bác bỏ H0
(Điều này có nghĩa là: với một sự kiện có xác suất
(nhỏ) đã xảy ra trong một lần quan sát mẫu. Theo nguyên lý
xác suất nhỏ ta bác bỏ H0)
Chú ý: Với cùng mức ý nghĩa , đối với một tiêu chuẩn
kiểm định G có thể có vô số miền bác bỏ Wx
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
7.2. Các sai lầm mắc phải khi kiểm định
Khi kiểm định giả thiết H0 với đối thiết H1 ta có thể phạm
sai lầm:
Sai lầm loại I: Giả thiết H0 đúng mà ta lại bác bỏ nó. Xác suất
mắc phải sai lầm này đúng bằng . Sai lầm loại này do mẫu
có cỡ quá nhỏ, hoặc do cách lấy mẫu...
Sai lầm loại II: Giả thiết H0 là sai mà ta lại chấp nhận nó.
ý muốn của ta là phải chọn G sao cho cực tiểu cả hai khả
năng phạm sai lầm. Tuy nhiên khi cỡ mẫu n cố định thì ý
muốn trên không thể thực hiện đ-ợc.
Trong thực hành, ta cố gắng tìm quy tắc kiểm định sao cho
xác suất để phạm sai lầm loại II là nhỏ nhất.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Tóm lại: Trong việc kiểm định H0 ta dẫn đến một trong hai
quyết định sau:
i) Bác bỏ H0
ii) Không có lý do để bác bỏ H0 và ta tạm giữ nó để nghiên
cứu tiếp.
Bác bỏ một giả thiết chỉ có nghĩa là chấp nhận một giả
thiết khác chứ không có nghĩa là giả thiết bị bác bỏ là sai.
Chấp nhận một giả thiết có nghĩa là không chấp nhận các
giả thiết khác chứ không có nghĩa là giả thiết đ-ợc chấp nhận
là đúng. Do vậy kiểm định một giả thiết chỉ là quy tắc hành
động chứ không phải là chứng minh tính lôgic một mệnh đề.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
7.3. Kiểm định giả thiết về kỳ vọng toán (giá trị trung bình)
của đại l-ợng ngẫu nhiên có phân phối chuẩn.
Giả sử đại l-ợng ngẫu nhiên X tuân theo quy luật phân
phối chuẩn ),( 2aN . (Nếu X không chuẩn thì lấy mẫu có kích
th-ớc 30n ). Trong đó E(X) = a ch-a biết, nh-ng có cơ sở
nào đó để đ-a ra giả thiết H0: E(X) = a = a0, cần phải kiểm
định giả thiết này với các đối thiết:
01 : aaH 01 : aaH ; hoặc ,: 01 aaH cho tr-ớc.
Ta xét các tr-ờng hợp sau đây:
7.3.1. Đã biết ph-ơng sai 2)( XD . Ta có quy tắc thực hành
sau đây: Để kiểm định 00 : aaH ; 01 : aaH , ta tiến hành lấy
mẫu ),...,,( 21 nx xxxW
+ Tính trung bình mẫu
n
i
ix
n
X
1
1
;
n
i
ii xn
n
X
1
1
+ Tính số n
aX
U
. Tra bảng chuẩn với mức ý nghĩa ,
2
1)( 2/
U , ta tìm đ-ợc 2/U . (Thông th-ờng:
96,105,0 2/ U ; )58,201,0 2/ U ;
+ So sánh giữa U và 2/U :
* Nếu
2/
2/
2/
UU
UU
UU Ta bác bỏ H0
* Nếu 2/2/2/ UUUUU Ta chấp nhận H0
Ví dụ 1: Từ một đám đông nào đó có phân phối chuẩn với 2,5
Lấy một mẫu cỡ n =100, ta tính đ-ợc 26,27X
Hãy kiểm định giả thiết H0: a = 26; H1: a 26 ở mức ý nghĩa 05,0
Giải: n = 100, 26,27X , 05,0 , tra bảng có 975,02/ UU
;2,5 .260 a Ta tính 42,2
2,5
6,12
100
2,5
2626,270
n
aX
U
So sánh ta thấy 96,142,2 2/ UU . Vậy ta bác bỏ H0.
Ta hiểu là: Kỳ vọng a của đám đông khác 26 một cách có ý
nghĩa ở mức 05,0 .
Nhận xét: Vẫn với giả thiết của bài toán trên, nếu lấy mức ý
nghĩa 01,0 (Tức là để giảm bớt sai lầm loại I).
Khi đó tra bảng ta có 58,2576,2995,02/ UU . (Phụ lục 3).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
L-u ý: Ta có thể tra bảng phụ lục 2 (vẫn có cùng một kết quả
nh- sau):
Từ .58,2)(4950,0
2
99,0
2
1
01,0 2/2/
UU
Do vậy 58,242,2 2/UU Ta phải tạm giữ H0, nh-ng khi
đó khả năng mắc sai lầm loại II tăng lên (H0 là sai mà ta lại
công nhận). Muốn có kết luận tốt hơn ta phải tiếp tục làm thí
nghiệm.
Chú ý: Nếu ta xét H0: a = a0; H1: a > a0 hoặc: H0 ; a = a0 ; H1:
a < a0. Khi đó miền tiêu chuẩn t-ơng ứng sẽ là:
Un
aX
xxxG n :),...,,( 21 (1)
hoặc:
Un
aX
xxxG n :),...,,( 21 (2)
Trong đó: ;1)( U )( U
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 2: Một v-ờn cây giống có chiều cao trung bình ch-a xác
định. Theo thỏa thuận giữa ng-ời chủ v-ờn là Lâm tr-ờng
trồng cây thì chỉ khi nào chiều cao của cây đạt trên 1 mét mới
đem trồng để đảm bảo tỷ lệ sống cao. Ng-ời ta điều tra ngẫu
nhiên 50 cây trong v-ờn và tính đ-ợc chiều cao trung bình
mX 1,1 . Với mức ý nghĩa 0,05, hỏi v-ờn cây giống đó đã đ-a ra
trồng đ-ợc ch-a? Cho biết sự biến động về chiều cao của loại
cây giống nói trên trong giai đoạn v-ờn -ơm ở trong những
điều kiện t-ơng tự là .1,0
Giải: H0: a = 1,0; H1: a >1,0; 05,0 . theo chú ý (1) ở trên:
Ta có: ;645,195,0 UU 1,71,7
1,0
0,11,1
50
1,0
0,1
X
U
Rõ ràng 65,171,1 UU nên ta bác bỏ H0 và chấp nhận đối
thiết .0,1:1 aH . Nghĩa là số cây giống đã có thể đem ra trồng
đ-ợc rồi.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
7.3.2. Tr-ờng hợp ch-a biết D(X). Chia làm hai tr-ờng hợp:
Nếu cỡ mẫu n < 30
Từ mẫu ngẫu nhiên ),...,,( 21 nx xxxW , chọn thống kê:
n
S
aX
T
'
0
)
làm tiêu chuẩn kiểm định
Nếu H1 đúng, tức là a = a0 thì thống kê T trở thành:
n
S
aX
n
S
aX
T
''
0 )()
. Ta đã biết rằng T có phân phối
Student với )1( n bậc tự do. Khi đó miền bác bỏ đ-ợc xây
dựng phụ thuộc vào đối thiết H1 nh- sau:
1) ;: 0aaH 01 : aaH )1(: ntTTW
2) ;: 0aaH 01 : aaH )1(: ntTTW
3) ;: 0aaH 01 : aaH
)1(
2/:
ntTTW
Trong đó
)1( nt ,
)1(
2/
nt có đ-ợc nhờ tra bảng )1( n bậc tự do.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ta có quy tắc thực hành sau đây:
+ Lập mẫu cỡ ),...,,( 21 nx xxxW
+ Tính trung bình mẫu
n
i
ixX
1
+ Tính ph-ơng sai mẫu:
1
)(
1
2
2'
n
xx
S
n
i
i
+ Xét thống kê n
S
aX
U
'
0
(Tra bảng Student tìm số 2/t với
1n bậc tự do)
+ So sánh: Nếu ,2/tT H0 bị bác bỏ ở mức .
Nếu ,2/tT tạm thời giữ H0
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
áp dụng: Để nghiên cứu ảnh h-ởng của tia xạ lên động vật,
ng-ời ta cân 11 con chuột tr-ớc và sau khi tia xạ thấy đột sụt
cân nh- sau (gam):
3,2; 1,2; 0,5; 1,8; 1,0; 3,4; 0,9; 1,0; 0,5; 1,6; 5,2. Với
mức ý nghĩa 0,01; Hỏi độ sụt cân đó là do ngẫu nhiên hay do
bị nhiễm xạ?
Giải: Ta giả thiết sự sụt cân của chuột là đại l-ợng ngẫu
nhiên có phân phối chuẩn. Ta kiểm định giả thiết: H0 - a = 0
(Không sụt cân do nhiễm xạ)
Đối thiết: 0:1 aH (Sụt cân do nhiễm xạ).
Ta có .85,1845,1
11
2,5...2,12,3
11
1
n
X
X i
i
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Tính
1934,2
10
934,21
10
)85,12,5(...)85,12,1()85,12,3(
1
)( 222
11
1
2
2'
n
xx
S i
i
Suy ra: 481,11934,2
2' SS
Tính: 14,411
481,1
085,1
T . Tra bảng phân phối Student với
mức ý nghĩa 01,0 , ta có 169,3
10
2/ t . So sánh
169,314,4 10 2/ tT . Suy ra giả thiết 0:0 aH bị bác bỏ ở mức
0,01.
Nói cách khác: chuột bị nhiễm xạ đã sụt cân.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Nếu cỡ mẫu :30n Ta biết rằng, khi n đủ lớn (thông th-ờng
với: 30n ) khi đó phân phối Student xấp xỉ phân phối chuẩn.
Do vậy đối với tr-ờng hợp này (ch-a biết ph-ơng sai, 30n )
ta chọn:
n
S
ax
U
'
0
)(
làm tiêu chuẩn kiểm định.
Khi đó miền bác bỏ đ-ợc xây dựng phụ thuộc vào đối thiết H1
nh- sau:
1) ;: 0aaH 01 : aaH UUUW :
2) ;: 0aaH 01 : aaH UUUW :
3) ;: 0aaH 01 : aaH 2/: UUUW
Trong đó: 2/, UU có đ-ợc nhờ tra bảng Laplatce.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Trọng l-ợng trung bình của một loại sản phẩm là 6
kg. Qua thực tế sản xuất, tiến hành kiểm tra ngẫu nhiên
ta thu đ-ợc số liệu sau:
Trọng
l-ợng (g)
1 2 3 4 5 6 7 8 9 10 11
Số sản
phẩm (ni)
4 6 7 17 17 23 15 12 9 8 3
Hãy kết luận về tình hình sản xuất với mức ý nghĩa
5%.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: n = 121 > 30. 6:0 aH ; 6:1 aH
Chọn thống kê: n
S
ax
U
'
0 )( làm tiêu chuẩn kiểm
định.
Khi đó miền bác bỏ đ-ợc xây dựng phụ thuộc vào đối
thiết H1 nh- sau:
0: aaH ; 01 : aaH 2/: UUUW
Tra bảng Laplatce 96,1975,02/ UU .
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
xi ni nixi
2
ii
xn
1 4 4 4
2 6 12 24
3 7 21 63
4 17 68 272
5 17 85 425
6 23 138 828
7 15 105 735
8 12 96 768
9 9 81 729
10 8 80 800
11 3 33 363
n = 121 723 5011
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Căn cứ vào số liệu đã cho ta lập bảng tính toán trên
Khi đó ;975,5
121
7231
ii xn
n
X
712,5)975,5(
121
5011
)( 22
22 XXS
4,27596,57596,5712,5.
120
121 '2' SS
Do đó: 2/1146,0121
4,2
)6975,5(
UU
Vậy ta chấp nhận H0.
Điều đó có nghĩa là tình hình sản xuất vẫn bình th-ờng.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
7.4. Kiểm định giả thiết về xác suất hoặc tỷ lệ
Giả sử ),...,,( 21 nxxx là mẫu ngẫu nhiên tuân theo quy luật phân
phối "Không- một" Ta đã biết, pXE )( và qpXD .)( . Với p ch-a biết,
nh-ng có cơ sở để nêu giả thiết:
00
: ppH với đối thiết 01 : ppH ;
hoặc 01 :( ppH ; ): 01 ppH . Với cách lý luận nh- trên, ta nhận đ-ợc
các miền tiêu chuẩn t-ơng ứng với mức ý nghĩa nh- sau:
;0pp
2/
00
0
0
)1(
Un
pp
pf
Gpp hoặc:
;0pp
Un
pp
pf
Gpp
)1( 00
0
0 hoặc:
;0pp
2/
00
0
0
)1(
Un
pp
pf
Gpp . Trong đó
n
m
Xf là
tần suất mẫu. Sau đó xem xét: n
pp
pf
U
)1( 00
0
để kết luận.
Nếu GU thì bác bỏ H0. Nếu GU thì ch-a có cơ sở để bác bỏ H0.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Một kho hạt giống có tỷ lệ nảy mầm xác định là 0,90.
Ngẫu nhiên có một thiết bị bảo quản bị hỏng làm thay đổi
điều kiện bên trong kho. Với độ tin cậy 05,0 , hỏi tỷ lệ nảy
mầm của kho hạt giống đó có còn giữ nguyên nh- tr-ớc hay
không?
Giải: Để có thông tin mới về tỷ lệ nảy mầm của kho hạt
giống, giả sử ng-ời ta đã làm thí nghiệm với 200 hạt thấy có
140 hạt nảy mầm. Khi đó bài toán kiểm định sẽ là:
;9,0: 00 ppH 01 : ppH . Tra bảng Lalatce ta có: ).64,1( 05,0 U
;0pp 5,9200
1,0.9,0
9,0
200
140
)1( 00
0
0
UUn
pp
pf
Gpp .
Ta thấy: -9,5 < - 1,64 vậy bác bỏ H0, chấp nhận H1, (Tỷ lệ
nảy mầm trong kho đã giảm).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ch-ơng VIII
Lý thuyết t-ơng quan và hồi quy
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Khi nghiên cứu sự phụ thuộc giữa hai đại l-ợng
ngẫu nhiên, trong đó mỗi đại l-ợng ngẫu nhiên chịu một
sự phân tán ngẫu nhiên nào đó (Sự tản mát không kiểm
tra đ-ợc), ta dùng ph-ơng pháp phân tích t-ơng quan.
Với ph-ơng pháp này, ta không những phát hiện đ-ợc
mối quan hệ phụ thuộc giữa chúng mà còn "l-ợng hóa"
đ-ợc mối quan hệ này.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.1. Hệ số t-ơng quan mẫu
Trong phần cơ sở xác suất, ta đã biết hệ số t-ơng
quan giữa hai biến ngẫu nhiên X và Y.
2222 )()()()(
)().().(
EYYEEXXE
YEXEYXE
p
Đó là số đo mức độ phụ thuộc tuyến tính giữa hai biến
ngẫu nhiên X và Y. Tuy nhiên khi ch-a biết phân phối
của (X, Y) thì hệ số t-ợng quan lý thuyết p cũng ch-a
tìm đ-ợc.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giả sử ta có mẫu ngẫu nhiên cỡ n về vectơ ngẫu
nhiên này. Khi đó hệ số t-ơng quan mẫu ký hiệu r đ-ợc
tính bởi công thức:
)()(
1
2
2
1
2
2
1
.
..
11
.
1
yx
k
j
jj
k
ii
k
i
jii
SS
yxyx
yym
n
xxm
n
yxyxm
nr
(I)
Trong đó:
k
i
ii xn
n
x
1
1
;
k
i
ii ym
n
y
1
1
2
1
22 )(
1
xxm
n
S
k
i
iix
; 2
1
22 )(
1
yym
n
S
k
j
jjy
;
k
i
k
j
jiij
yxm
n
yx
1 1
.
1
.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Chú ý: Khi tính hệ số t-ơng quan giữa X và Y nếu dùng phép
đổi biến để thu gọn số liệu:
h
xx
u ii
0 ;
k
yy
v ii
0
(Trong đó ixx 0 có tần số in lớn nhất; jyy 0 có tần số
jm lớn nhất)
Khi đó hệ số t-ơng quan mẫu không thay đổi và đ-ợc tính bởi
công thức:
vu
n
n
i
jj
jj
k
i
n
i
ii
ii
k
i
n
j
jj
n
i
ii
jii
xyvu
SS
vuvu
n
vm
vm
nn
um
um
n
n
vm
n
um
vum
n
rr
.
..
11
1
2
12
2
1
12
1
11
.
(II)
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.2. Tính chất của hệ số t-ơng quan mẫu
i) 1r
ii) Nếu X và Y là độc lập thì r = 0.
iii) Nếu r = 0 thì giữa X và Y không có sự phụ thuộc
t-ơng quan tuyến tính. (Chú ý rằng, khi đó có thể chúng có
liên hệ phi tuyến hoặc hàm số).
iv) Nếu r = 1 thì giữa X và Y có mối liên hệ hàm tuyến
tính.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.3 ý nghĩa của hệ số t-ơng quan
Hệ số t-ơng quan của hai biến X và Y cho ta một
chỉ số đánh giá mối quan hệ tuyến tính giữa X và Y. Nó
là một hệ số có giá trị tuyệt đối nằm giữa 0 và 1. Nếu hệ
số t-ơng quan khá gần 0 thì có thể coi giữa X và Y
không có t-ơng quan tuyến tính. Nếu hệ số t-ơng quan
khá gần 1 thì quan hệ giữa X và Y xấp xỉ bởi hệ thức Y
= aX + b.
Trong thống kê, ng-ời ta quy -ớc rằng: Khi 3,0r
thì X và Y có sự phụ thuộc t-ơng quan tuyến tính. Khi r >
0,7 (r < - 0,7) thì giữa X và Y có sự phụ thuộc t-ơng quan
tuyến tính thuận (nghịch) mạnh.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.4. Cách tính hệ số t-ơng quan.
Ví dụ 1) Tr-ờng hợp số liệu cho d-ới dạng sau:
X 1 2 3 4 5 6 7 8 9 10
Y 2 6 7 4 8 5 13 10 14 9
Khi đó ta lập bảng tính toán rồi áp dụng công thức:
)()(
1
22
1
22
1
.
..
11
.
1
yxk
j
jj
k
ii
k
i
jii
SS
yxyx
yym
n
xxm
n
yxyxm
n
r
. Khi đó ta có:
76,0
1316.825
790
10
78
10
740
10
55
10
385
10
78
.
10
55
10
508
22
r
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
xi yi
2
ix
2
iy
xi.yi
1 2 1 4 2
2 6 4 36 12
3 7 9 49 21
4 4 16 16 16
5 8 25 64 40
6 5 36 25 30
7 13 49 169 91
8 10 64 100 80
9 14 81 196 126
10 9 100 81 90
55 78 385 740 508
Kết luận: Vì r = 0,76 > 0,7, do đó giữa X và Y cho bởi mẫu
trên có sự phụ thuộc t-ơng quan tuyến tính thuận mạnh.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Khi đó ta phải dùng ph-ơng pháp thu gọn số liệu
bằng cách đổi biến đã biết:
Chọn x0 = 26,0; y0 = 0,50; hx = 0,50; ky = 0,01
Với ph-ơng pháp đổi biến: ;
50,0
0,26
ii
x
u
01,0
50,0
ii
y
v .
Các số liệu biến đổi và tính toán đ-ợc ghi tiếp vào bảng
sau đây:
Ví dụ 2: Tr-ờng hợp số liệu điều tra cho d-ới dạng:
Xi 23,0 24,0 24,5 24,5 25,5 25,5 26,0 26,0 26,0 26,5 2,5 27,0 27,0 28,0
Yi 0,48 0,50 0,49 0,50 0,51 0,52 0,49 0,51 0,53 0,53 0,52 0,54 0,51 0,53
ni 2 4 3 2 1 1 2 1 2 1 1 2 1 3
xi yi ni ui niu
2
iiun vi nivi
2
iivn niuivi
23,0 0,48 2 -6 -12 72 -2 -4 8 24
24,0 0,50 4 -4 -16 64 0 0 0 0
24,5 0,49 3 -3 -9 27 -1 -1 1 9
24,5 0,50 2 -3 -6 18 0 0 0 0
25,5 0,51 1 -2 -2 4 1 1 1 -2
25,5 0,52 1 -1 -1 1 2 2 4 -2
26,0 0,49 2 0 0 0 -1 -2 2 0
26,0 0,51 1 0 0 0 1 1 1 0
26,0 0,53 2 0 0 0 3 6 18 0
26,5 0,50 1 1 1 1 0 0 0 0
26,5 0,52 1 1 1 1 2 2 4 2
27,0 0,54 2 2 4 8 4 8 32 16
27,0 0,51 1 2 2 4 2 2 4 4
28,0 0,53 3 4 12 48 3 9 27 36
26 -26 248 22 104 87
áp dụng công thức:
vu
n
n
i
jj
jj
k
i
n
i
ii
ii
k
i
n
j
jj
n
i
ii
jii
xyvu
SS
vuvu
n
vm
vm
nn
um
um
n
n
vm
n
um
vum
n
rr
.
..
11
1
2
12
2
1
12
1
11
.
792,0
26
22
104
26
1
26
26
.248
26
1
26
22
.
26
26
26
87
22
r
Kết luận: Với mẫu đã cho, giữa X và Y có sự phụ thuộc
t-ơng quan tuyến tính thuận mạnh.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ 3: Nếu số liệu điều tra d-ới dạng bảng hai lối vào sau
đây thì ta có thể thực hiện các phép tính ngay trên bảng:
xi
yj
1 2 3 4 mj
mjyj
2
jj ym
7 1 28 1 7 49 28
6 1 18 1 6 36 18
5 1 10 2 30 3 15 75 40
4 2 16 2 8 32 16
3 3 9 3 9 27 9
mi 3 3 3 1
n =
10
45 219
mixi 3 6 9 4 22
2
ii xm 3 12 27 16 58
9 26 48 28 111
Các số ghi ở góc bên phải của mỗi ô là tích của xiyj với
số lần lặp.
Tổng các số đó trong mỗi cột hoặc mỗi hàng đ-ợc ghi ở
hàng và cột cuối cùng. Theo bảng trên, ta có: 22iixm ;
582iixm ; 45ii ym ; 219
2
jj ym ; 111jiij yxm
Vậy:
)()(22
1
2
2
1
.
..
11
.
1
yx
jj
k
ii
k
i
jii
SS
yxyx
yym
n
xxm
n
yxyxm
nr
95,0
58,12
12
10
45
219
10
22
.1058
10
45
.
10
22
10
111
22
Vậy hệ số t-ơng quan của mẫu trên là r = 0,95. (t-ơng
quan tuyến tính thuận mạnh).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.5. Đ-ờng hồi quy tuyến tính thực nghiệm
Giả sử có bảng phân phối hai chiều của cặp biến ngẫu
nhiên (X, Y).
Biểu diễn các điểm (xi, yj) trên mặt phẳng tọa độ
đ-ợc một tập hợp các điểm gọi là tr-ờng t-ơng quan. Ta
có biểu diễn mô phỏng sau đây:
********************
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.6. Hàm hồi quy
Cho cặp đại l-ợng ngẫu nhiên (X, Y). Xét kỳ vọng
có điều kiện E(Y/X=x). Nó cho ta trung bình của Y khi X
lấy giá trị x. Do đó, kỳ vọng có điều kiện này phụ thuộc
vào giá trị của X, nó có thể coi là một hàm của x và đó
đ-ợc gọi là hàm hồi quy của Y đối với X. T-ơng tự hàm
hồi quy của X đối với Y E(X/Y=y).
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Nếu đồ thị của hàm hồi quy là đ-ờng thẳng thì ta
nói đó là hàm hồi quy tuyến tính. Để vẽ đ-ờng hồi quy
tuyến tính thực nghiệm của Y đối với X ta nối các điểm
ixi
yx , . Trong đó
ix
y là trung bình các giá trị của y trong
mẫu ứng với giá trị X = xi. Đ-ờng hồi quy thực nghiệm
của X đối với Y vẽ bằng cách nối các điểm jyj xy ; . Trong
đó jyx là trung bình các giá trị của X ứng với Y = yj.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8. 7. Ph-ơng trình đ-ờng hồi quy tuyến tính
Khi các điểm của đ-ờng hồi quy thực nghiệm xấp xỉ
thẳng hàng thì có thể coi là hồi quy tuyến tính và có biểu
diễn bởi phuơng trình Y = aX + b. Tìm a và b ph-ơng
pháp “bình phương bé nhất”, tức là giải hệ:
ii
iiii
ybnxa
yxxbxa
.
.2
(*)
Trong đó xi là các giá trị của ),1( niX
yi là các giá trị trung bình của Y khi X lấy giá trị xi
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Sự t-ơng quan giữa trọng l-ợng X (tính theo kg) và
chiều dài lồng ngực Y (cm) của 300 con bò cho bởi bảng
sau:
225 275 325 375 425 475 525 575 mj jyX /
195 1 1 575
185 1 9 15 2 27 508
175 4 25 35 21 9 1 95 430
165 3 40 44 24 8 119 273
155 1 17 17 17 1 53 325
145 2 1 1 4 263
135 1 1 225
mi 4 21 62 86 61 38 24 4 300
xy / 145 156 160 166 170 175 182 185
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ta lập bảng tính toán sau đây:
xi yi
2
ix xiyi
225 145 50625 32625
275 156 75625 42900
325 160 105625 52000
375 166 140625 62250
425 170 180625 72250
475 175 225625 83125
525 182 275625 95550
575 185 330625 106375
3200 1339 1385000 547075
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Từ đó ta có hệ ph-ơng trình:
1.385.000.a + 3200b = 547.075
3200.a + 8b = 1339
Giải ra tìm đ-ợc a = 0,11; b = 123
Vậy ph-ơng trình hồi quy tuyến tính của lồng ngực trung
bình Y với trọng l-ợng X của đàn bò là: 12311,0 XY .
Hệ số a trong (*) gọi là hệ số hồi quy của Y theo X.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
8.8. Tìm ph-ơng trình hồi quy tuyến tính dựa vào hệ số
t-ơng quan mẫu
8.8.1. Tìm ph-ơng trình hồi quy tuyến tính của Y theo X
Ta sử dụng công thức: ).(.
)(
)(
xx
S
S
ryy
x
y
8.8.2. Tìm ph-ơng trình hồi quy tuyến tính của X theo Y
Ta sử dụng công thức: ).(.
)(
)(
yy
S
S
rxx
y
x
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Ví dụ: Theo dõi sự phụ thuộc giữa mức suy giảm hàm
l-ợng đ-ờng trong mía X(%) và thời gian chờ chế biến (t)
ta thu đ-ợc kết quả sau đây:
X 30 30 35 35 40 40 40 45 45 45 50 50
t 2 4 4 6 4 6 8 6 8 10 8 10
m 1 1 3 1 1 2 2 2 3 1 1 2
Hãy tìm hệ số t-ơng quan mẫu giữa X và t. Viết
ph-ơng trình hồi quy của X theo t và ph-ơng trình tuyến
tính của t theo X? Cho nhận xét?
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Giải: Căn cứ vào số liệu đã cho, dùng phép đổi biến để
thu gọn số liệu:
Chọn x0 = 40; t0 = 6; hk = 5; kt = 2.
;
5
400
i
x
i
i
x
h
xx
u
2
60
i
t
i
i
t
k
tt
v
áp dụng công thức:
vu
n
n
i
jj
jj
k
i
n
i
ii
ii
k
i
n
j
jj
n
i
ii
jii
xyvu
SS
vuvu
n
vm
vm
nn
um
um
n
n
vm
n
um
vum
n
rr
.
..
11
1
2
12
2
1
12
1
11
.
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Các b-ớc tính toán đ-ợc thể hiện trong bảng d-ới đây:
xi ti mi ui vi miui
2
iium mivi
2
iivm miuivi
30 2 1 -2 -2 -2 4 -2 4 4
30 4 1 -2 -1 -2 4 -1 1 2
35 4 3 -1 -1 -3 3 -3 3 3
35 6 1 -1 0 -1 1 0 0 0
40 4 1 0 -1 0 0 -1 1 0
40 6 2 0 0 0 0 0 0 0
40 8 2 0 1 0 0 2 2 0
45 6 2 1 0 2 2 0 0 0
45 8 3 1 1 3 3 3 3 3
45 10 1 1 2 1 1 2 4 2
50 8 1 2 1 2 4 1 1 2
50 10 2 2 2 4 8 4 8 8
20 4 30 5 27 24
Khi đó: 8398,0
42,27
23
20
5
27.
20
1
20
4
30.
20
1
20
5
.
20
4
20
24
22
r
Nhận xét: Với bài toán trên ta có thể giải bằng ph-ơng
pháp xây dựng bảng hai lối vào nh- sau: (Tính tiện lợi
dành cho độc giả nhận xét)
t
x
30 35 40 45 50
2 1
4 1 3 1
6 1 2 2
8 2 3 1
10 1 2
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Dùng ph-ơng pháp đổi biến ta có:
u v -3 -2 -1 0 1 mi mivj mjvj
2 jiij vum
-3
1
9
1 -3 9 9
-2
1
6
3
12
1
2
5 -10 20 18
-1
1
2
2
2
2
0
5 -5 5 4
0
2
0
3
0
1
0
6
0 0 0
1
1
0
2
2
3 3 3 2
mj 2 4 5 6 3
mj uj -6 -8 -5 0 3
mjuj
2 36 16 5 0 3
jiij vum 15 14 4 0 2 33
Chú ý: Để viết ph-ơng trình hồi quy tuyến tính của Y
theo X (hoặc X theo Y) khi đã tính đ-ợc hệ số t-ơng
quan mẫu, ta sử dụng công thức:
Ph-ơng trình hồi quy của y theo x: ).(.
)(
)(
xx
S
S
ryy
x
y
;
(Hoặc ph-ơng trình hồi quy của x theo y:
).(.(
)(
)(
yy
S
S
rxx
y
x
)
Nếu đã dùng phép đổi biến thì phải quay lại biến ban
đầu bằng cặp công thức:
vkyy
uhxx
y
x
.
.
0
0
)()(
)()(
.
.
vyy
uxx
SkS
ShS
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Với ví dụ trên ta có: 41
5
1
.540
5
1
20
4
xx
5,6
4
1
.26
4
1
20
5
tv
274,5.54,52,29)2,0.(2030).( )(
222
)( xiiu SunumS
14,1007,5.207,527,25)25,0.(2027).(
)(
222
)(
tiiv
SvnvmS
Vậy ph-ơng trình hồi quy của x theo t là:
)5,6(
14,10
27
.8398,041).(.
)(
)(
txtt
S
S
rxx
y
x
48,26234,2)5,6(66,2.8398,041 ttx
Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
Nhận xét: vì r = 0,8398 > 0,7 do đó X và t có sự phụ thuộc
tuyến tính mạnh. Nghĩa là nếu để càng lâu sau khi thu hoạch
mới chế biến thì hàm l-ợng đ-ờng càng giảm.
Vậy ph-ơng trình hồi quy của t theo x là:
(Coi nh- bài tập áp dụng).
) .( .
) (
) (
x x
S
S
r t t
x
t
Các file đính kèm theo tài liệu này:
- bai_giang_xac_suat_thong_kep2_6125.pdf