Bài giảng Ước lượng từ mẫu ra quần thể nghiên cứu
Kết luận: Nguy cơ tương đối của trẻ sinh non ở miền núi là 1.63 (95%CI 0.85, 3.11).
Chúng ta 95% tin tưởng rằng nguy cơ của trẻ ở miền núi bị sinh non có thể gấp 0.85
đến 3.11 lần trẻ sinh ở thành thị.
Bạn đang xem nội dung tài liệu Bài giảng Ước lượng từ mẫu ra quần thể nghiên cứu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1
ƯỚC LƯỢNG TỪ MẪU RA QUẦN THỂ
NGHIÊN CỨU
Hoàng Thị Hải Vân
Bộ môn Thống kê Tin học Y học
Viện Đào tạo YHDP&YTCC
Trường ĐH Y Hà Nội
hoangthihaivan@hmu.edu.vn
www.ipmph.edu.vn
Mục tiêu bài học
Kết thúc bài học, học viên có khả năng:
1. Phân biệt được tham số mẫu và tham số quần thể
2. Phân biệt được ước lượng điểm và ước lượng khoảng
3. Ứng dụng được kỹ thuật ước lượng điểm và ước
lượng khoảng để tính toán và phiên giải kết quả
2
www.ipmph.edu.vn
Khái niệm cỡ mẫu và quần thể
Chọn mẫu
Quần thể với cỡ N
Mẫu với cỡ n
p, s
P, µ, σ
www.ipmph.edu.vn
QuÇn thÓ ®Ých
QuÇn thÓ
nghiªn cøu
MÉu
Tham sè quÇn thÓ
(µ, σ, P...)MÉu x¸c suÊt
- NgÉu nhiªn ®¬n
- NgÉu nhiªn hÖ thèng
- MÉu ph©n tÇng
- MÉu chïm
- MÉu nhiÒu bËc
MÉu kh«ng x¸c suÊt
- MÉu kinh nghiÖm
- MÉu thuËn tiÖn
- MÉu chØ tiªu
- MÉu cã môc ®Ých.
Chän
mÉu
¦íc l−îng
• ®iÓm
• kho¶ng
KiÓm ®Þnh
gi¶ thuyÕt
Suy luËn
th«ng kª
(ChØ ¸p
dông cho
mÉu x¸c
suÊt víi
cì mÉu
®ñ lín)
KÕt luËn ngo¹i suy
C¸c test
thèng kª
Gi¸ trÞ p
Lùa chän
M« t¶ c¸c tham sè mÉu
(tr×nh bµy kÕt qu¶ nghiªn c−ó)
Tham sè mÉu
( , s, p...)BiÕn sè
Thèng kª
m« t¶
Thèng kª suy luËn
X
3
www.ipmph.edu.vn
Phân biệt thống kê mô tả và thống kê suy
luận
Thống kê mô tả:
• là mô tả kết quả thu được từ mẫu nghiên cứu
• biểu thị độ lớn, sự phân bố của các tham số của mẫu
nghiên cứu như , độ lệch chuẩn, các tỷ lệ, bảng, biểu,
đồ thị sự phân bố theo các biến số khác nhau như tuổi,
giới, địa dư...
Thống kê suy luận:
• là quá trình ngoại suy kết quả nghiên cứu từ mẫu ra
quần thể nghiên cứu.
• bao gồm 2 phương pháp: ước lượng và kiểm định
www.ipmph.edu.vn
Ph©n biÖt −íc l−îng vµ kiÓm ®Þnh
Ước lượng:
• ngoại suy từ tham số mẫu ra tham số quần thể:
• từ trung bình của mẫu ( ) sang TB quần thể (µ)
• từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P)
• từ OR, RR, r của mẫu ra quần thể.
Kiểm định giả thuyết:
• so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt của 2
hoặc nhiều mẫu rút ra từ chính quần thể đó.
• kiểm định mối tương quan của quần thể dựa theo mối tương
quan thu được từ mẫu
X
4
www.ipmph.edu.vn
• Cho một giá trị trung bình: Giá trị trung
bình quần thể chính là giá trị trung bình
của mẫu
• Cho một tỷ lệ: tỷ lệ của quần thể chính là
tỷ lệ mẫu nghiên cứu
Ước lượng điểm
www.ipmph.edu.vn
• Khoảng giá trị của các cá thể trong quần
thể được tính từ giá trị của mẫu nghiên
cứu
Ước lượng khoảng
5
www.ipmph.edu.vn
Ví dụ về mối liên quan giữa mẫu và
quần thể
• Ví dụ 1. Trong một lớp cao học chỉ có 6 sinh
viên, trong kỳ thi cuối khóa các học sinh này đạt
được điểm như sau.
• Điểm trung bình của 6 sinh viên này là: 7.6
Sinh
viên
1 2 3 4 5 6
Điểm 9 8 8 7 7 7
www.ipmph.edu.vn
Ví dụ về mối liên quan giữa mẫu và
quần thể
Nếu coi 6 sinh viên này là một quần thể nghiên
cứu và chọn cỡ mẫu nghiên cứu bằng 2 ta có
Mẫu số Sinh
viên
Điểm
thi
Trung bình
mẫu
1
2
3
4
5
6
7
8
1, 2
1, 3
1, 4
1, 5
1, 6
2, 3
2, 4
2, 5
9, 8
9, 8
9, 7
9, 7
9, 7
8, 8
8, 7
8, 7
8,5
8,5
8,0
8,0
8,0
8,0
7,5
7,5
6
www.ipmph.edu.vn
Ví dụ về mối liên quan giữa mẫu và
quần thể
Nhận xét: giá trị trung bình của các mẫu rất khác nhau
giữa các mẫu và các giá trị này cũng khác so với giá trị
trung bình quần thể là 7,6
Mẫu số Sinh
viên
Điểm thi Trung
bìnhmẫu
9
10
11
12
13
14
15
16
2, 6
3, 4
3, 5
3, 6
4, 5
4, 6
4, 7
5, 6
8, 7
8, 7
8, 7
8, 7
7, 7
7, 7
7, 6
7, 7
7,5
7,5
7,5
7,5
7,0
7,0
6,5
7,0
www.ipmph.edu.vn
Thông thường các nghiên cứu chỉ lựa chọn một cỡ mẫu
nhất định từ quần thể để tiến hành nghiên cứu
Nếu cỡ mẫu rất nhỏ chúng ta không thể suy luận (ước
lượng) giá trị trung bình của quần thể một cách chính
xác.
Tuy nhiên với cỡ mẫu rất lớn chúng ta có thể suy luận
(ước lượng) được giá trị của quần thể gần giống giá trị
của mẫu
Khái niệm sai số chuẩn được đưa ra nhằm đo lường độ
chính xác của mẫu so với quần thể
Sai số chuẩn và độ chính xác
7
www.ipmph.edu.vn
Sai số chuẩn và độ chính xác
Giá trị sai số chuẩn liên quan trực tiếp với cỡ mẫu
Sai số chuẩn đối với các biến liên tục có độ lệch chuẩn
được sử dụng để đo lường độ phân tán có công thức tính
như sau:
Khi cỡ mẫu càng lớn thì sai số chuẩn càng nhỏ và điều đó
chứng tỏ giá trị trung bình càng chính xác (càng gần với
giá trị quần thể)
Sai số chuẩn chỉ ra rằng: Nếu ta tiến hành lấy 100 mẫu
ngẫu nhiên khác nhau từ cùng một quần thể thì 95% giá trị
trung bình của các mẫu này nằm trong khoảng:
“giá trị trung bình quần thể ±1,96*SE”
n
SDSE =
www.ipmph.edu.vn
68.5% giá trị nằm trong khoảng µ±1SD của giá trị trung bình
95% giá trị nằm trong khoảng µ± 2 SD của giá trị trung bình
99.7% giá trị nằm trong khoảng µ±3 SD của giá trị trung bình
68.5% giá trị TB mẫu nằm trong khoảng µ±1SE của giá trị TB QT
95% giá trị TB mẫu nằm trong khoảng µ± 1.96 SE của giá trị TB QT
99.7% giá trị TB mẫu nằm trong khoảng µ±3 SE của giá trị TB QT
68,5%
95%
99,7%
-3 σ -2 σ -1σ µ = 0 1σ
2σ 3σ
8
www.ipmph.edu.vn
• Giá trị trung bình mẫu = ?
Giá trị TB QT-1.96*SE Gía trị TB QT Gía trị TBQT+1.96*SE
• Như vậy 95% các giá trị trung bình mẫu nằm trong
khoảng này
• Ý nghĩa: Khi không biết giá trị trung bình quần thể,
chúng ta có thể tính toán khoảng tin cậy xung quanh giá
trị trung bình mẫu và từ đó ước lượng ra giá trị trung
bình quần thể
Khoảng tin cậy 95%
www.ipmph.edu.vn
Giá trị TB mẫu-1.96*SE Gía trị TB mẫu Gía trị TB mẫu+1.96*SE
• 95% các khoảng này sẽ chứa đựng giá trị quần thể mẫu
Khoảng tin cậy 95%
9
www.ipmph.edu.vn
Khoảng tin cậy cho 1 giá trị trung bình có nghĩa là:
cứ mỗi lần một cỡ mẫu ngẫu nhiên rút ra từ quần thể ta
thu được một giá trị trung bình với một khoảng tin cậy
nhất định. Nếu việc này được lặp đi lặp lại nhiều lần thì
khoảng giá trị đó sẽ bao gồm cả giá trị thực sự của quần
thể trong đó với một mức độ tin cậy nhất định (ví dụ
95%, hay 99%...)
Khoảng tin cậy 95%
www.ipmph.edu.vn
Xác suất: Giả sử 10% quần thể bị cao huyết áp, nếu ta
lấy ngẫu nhiên một người trong quần thể đó thì ta có thể
kết luận như thế nào về khả năng mắc CHA của người
đó?
Trả lời: 10% khả năng người đó bị cao huyết áp
Tương tự như vậy, chúng ta biết rằng 95% các khoảng
tin cậy của các giá trị trung bình mẫu có bao hàm giá trị
trung bình quần thể. Nếu chúng ta lẫy một mẫu bất kỳ
trong quần thể và tính toán khoảng tin cậy của cỡ mẫu
này, chúng ta có thể kết luận như thế nào?
Trả lời: 95% khả năng giá trị trung bình quần thể sẽ nằm
trong khoảng tin cậy đó
Khoảng tin cậy 95%
10
www.ipmph.edu.vn
• Công thức chung tính khoảng tin cậy là:
Ước lượng điểm ±1.96*SE
• Phương pháp tính SE rất khác nhau tuỳ
thuộc vào bản chất của số liệu (biến liên
tục hoặc biến định tính)
Khoảng tin cậy 95%
www.ipmph.edu.vn
95% khoảng tin cậy cho một giá trị
trung bình
95% khoảng tin cậy của giá trị trung bình:
95%CI = Mean ± 1.96*SE với
Ví dụ: Cân nặng trung bình của một cỡ mẫu 30 người là 70kg,
SD=5.04kg. Tính 95% khoảng tin cậy của giá trị tring bình?
Ta có: mean=70kg, SD=5.04kg, n=30
95%CI=70±1.96*0.92=68.2 – 71.8kg
Vậy 95% cân nặng của các cá thể trong quần thể nằm trong
khoảng từ 68.2kg đến 71.8kg
n
SDSE =
kg
n
SDSE 92.0
30
04.5
===
11
www.ipmph.edu.vn
95% khoảng tin cậy cho một tỷ lệ
• Công thức cơ bản sử dụng cho ước lượng
khoảng là:
• Ví dụ: Một nghiên cứu tiến hành với cỡ mẫu 300
trẻ trong số đó, 123 em trả lời là đã thường
xuyên đi khám răng miệng tối thiểu hai lần một
năm. Ta có ước lượng được khoảng mà tỷ lệ
quần thể rơi vào đó với 95% độ tin cậy như sau:
n
PQZp 2/α±
www.ipmph.edu.vn
• Áp dụng công thức
• Ta có:
• 35,4% - 46,6%
• Vậy, với độ tin cậy 95%, ta có thể tin tưởng là tỷ
lệ học sinh thường xuyên đi khám răng miệng
tối thiểu hai lần một năm của quần thể học sinh
trong trường nằm trong khoảng từ 35,4% đến
46,6%.
n
qpp
n
qpp .96,1.96,1 +→−
300
59*4196,141
300
59*4196,141 +→−
12
www.ipmph.edu.vn
95% khoảng tin cậy cho một tỷ suất
• Thường áp dụng cho tỷ lệ mới mắc hay tỷ suất mới
mắc
• Rate =x/n trong đó x là số ca mới mắc và n là số người
năm
• 95%CI (rate) = Rate ± 1.96*SE với
=
n
xSE
www.ipmph.edu.vn
95% khoảng tin cậy cho một tỷ suất
• Ví dụ: Một nghiên cứu thuần tập theo dõi dọc về
bệnh ung thư ruột kết tại Vĩnh Phúc với 185,693
người tham gia trong vòng 5 năm. Khi kết thúc
nghiên cứu có 675 ca bệnh được phát hiện. Hãy
tính tỷ lệ mới mắc trong 100,000 dân và khoảng
tin cậy 95%
13
www.ipmph.edu.vn
95% khoảng tin cậy cho một tỷ suất
• Ta có: x=675, n=185,693*5=928,465 người năm
• Tỷ lệ mới mắc điểm là:
– (675/927,465)*100,000 = 72.7 trên 100,000 người năm
• SE của tỷ lệ:
• Giới hạn dưới của 95%CI = 72.7-1.96*2.80=67.2
• Giới hạn trên của 95%CI=72.2+1.96*2.80=78.2
=== 80.2000,100
465,928
675
x
n
xSE
www.ipmph.edu.vn
• Kết luận: Tỷ lệ mới mắc ung thư ruột kết tại
Vĩnh Phúc là 72.7 người trên 100,000 người
năm với 95% độ tin cậy giới hạn trong
khoảng 67.2 đến 78.2 người trên 100,000
người năm. Do đó, chúng ta 95% tin tưởng
rằng tỷ lệ mới mắc ung thư ruột kết thật nằm
trong khoảng này.
95% khoảng tin cậy cho một tỷ suất
14
www.ipmph.edu.vn
95% khoảng tin cậy của nguy cơ
tương đối (RR)
• 95% khoảng tin cậy của nguy cơ tương đối
(RR):
• Tính RR
• Tính ln(RR)
• Tính SE (lnRR)
• 95%CI (lnRR) = ln(RR) ± 1.96*SE (lnRR)
• 95%CI RR = )(ln*96.1ln)(ln*96.1ln RRSERRRRSERR ee +− −
−+−=
21
1111)(ln
ncna
RRSE
www.ipmph.edu.vn
95% khoảng tin cậy cho nguy cơ
tương đối (RR)
Nguy cơ tương đối (RR)
được tính bằng tỷ lệ mới
mắc của những người có
tiếp xúc với yếu tố nguy cơ
(phơi nhiễm)/tỷ lệ mới mắc
của những người không tiếp
xúc với yếu tố nguy cơ
(không phơi nhiễm)
RR=[a/(a+b)]/[c/(c+d)]
Vì RR có phân bố không
chuẩn nên phải chuyển dạng
sang ln để có phân bố
chuẩn, từ đó mới tính 95%CI
Bệnh Tổng
Có Không
Có
phơi
nhiễm
a b a+b=n1
Không
phơi
nhiễm
c d a+d=n2
Tổng a+c b+d n
15
www.ipmph.edu.vn
95% khoảng tin cậy cho nguy cơ
tương đối (RR)
Một nghiên cứu lựa chọn
ngẫu nhiên 200 ca đẻ tại
thành thị cho thấy có 20
trẻ (10%) đẻ non so với
một nghiên cứu lựa chọn
ngẫu nhiên 80 ca đẻ tại
một vùng nông thôn có 13
trẻ đẻ non (16.3%). Câu
hỏi đặt ra là liệu nguy cơ
đẻ non đối với trẻ ở nông
thôn có cao hơn so với ở
thành thị hay không?
Kết quả Tổng
Đẻ non Không
đẻ non
Nông
thôn
a=13 b=67 a+b=n1
=80
Thành
thị
c=20 d=180 a+d=n2
=200
Tổng a+c=33 b+d=2
47
n
www.ipmph.edu.vn
95% khoảng tin cậy cho nguy cơ
tương đối (RR)
Ta có:
• RR=[a/(a+b)]/[c/(c+d)]=[13/80]/[20/200]=1.6250
• ln(RR)=ln(1.6250)=0.4855
• 95%CI của ln(RR)=0.4855±1.96*0.331=-0.1633 đến 1.1343
• 95%CI của RR=
=0.85 đến 3.11
331.0109.0
200
1
20
1
80
1
13
11111)(ln
21
==
−+−=
−+−=
ncna
RRSE
1343.11633.0 ee −−
16
www.ipmph.edu.vn
• Kết luận: Nguy cơ tương đối của trẻ sinh
non ở miền núi là 1.63 (95%CI 0.85, 3.11).
Chúng ta 95% tin tưởng rằng nguy cơ của
trẻ ở miền núi bị sinh non có thể gấp 0.85
đến 3.11 lần trẻ sinh ở thành thị.
95% khoảng tin cậy cho nguy cơ
tương đối (RR)
www.ipmph.edu.vn
95% khoảng tin cậy của tỷ suất
chênh (OR)
• 95% khoảng tin cậy của tỷ suất chênh
(OR):
• Tính OR
• Tính ln(OR)
• Tính SE (lnOR)
• 95%CI (lnOR) = ln(OR) ± 1.96*SE (lnOR)
• 95%CI OR = )(ln*96.1ln)(ln*96.1ln ORSEORORSEOR ee +− −
+++=
dcba
ORSE 1111)(ln
Các file đính kèm theo tài liệu này:
- uoc_luong_tu_mau_ra_quan_the_nghien_cuu_hthv_4211.pdf