Bài giảng Kiểm định giả thuyết
Hồi quy logistic
Để tìm mối liên quan giữa biến phụ thuộc là biến nhị
phân và các biến độc lập là định lượng hoặc định tính
Ví dụ: Nghiên cứu bệnh - chứng về tình trạng mắc bệnh
phong và có tiêm vaccine BCG, với các yếu tố nghi ngờ
nhiễu là tuổi, giới, nơi học,.
Biến phụ thuộc: Mắc bệnh phong
Biến độc lập: có sẹo BCG, tuổi, giới, nơi học,
Bạn đang xem trước 20 trang tài liệu Bài giảng Kiểm định giả thuyết, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Hoàng Thị Hải Vân
Bộ môn Thống kê Tin học Y học
Viện Đào tạo YHDP&YTCC
Tel: 0912693335
Email: hoangthihaivan@hmu.edu.vn
Phân biệt được ước lượng và kiểm định giả
thuyết
Giả thuyết nghiên cứu
Giá trị của p và mức ý nghĩa thống kê
Phân biệt được sai lầm loại I và sai lầm loại II
Liệt kê được các bước tiến hành kiểm định giả
thuyết
Có khả năng lựa chọn được trắc nghiệm thống kê
thích hợp cho một bộ số liệu cụ thể
2Thống kê mô tả:
là mô tả kết quả thu được từ mẫu nghiên cứu
biểu thị độ lớn, sự phân bố của các tham số của mẫu nghiên
cứu như giá trị trung bình, độ lệch chuẩn, các tỷ lệ, bảng,
biểu, đồ thị sự phân bố theo các biến số khác nhau như tuổi,
giới, địa dư...
Thống kê suy luận:
là quá trình ngoại suy kết quả nghiên cứu từ mẫu ra quần
thể nghiên cứu.
bao gồm 2 phương pháp: ước lượng và kiểm định
QuÇn thÓ ®Ých
QuÇn thÓ
nghiªn cøu
MÉu
Tham sè quÇn thÓ
(µ, σ, P...)MÉu x¸c suÊt
- NgÉu nhiªn ®¬n
- NgÉu nhiªn hÖ thèng
- MÉu ph©n tÇng
- MÉu chïm
- MÉu nhiÒu bËc
MÉu kh«ng x¸c suÊt
- MÉu kinh nghiÖm
- MÉu thuËn tiÖn
- MÉu chØ tiªu
- MÉu cã môc ®Ých.
Chän
mÉu
¦íc l−îng
• ®iÓm
• kho¶ng
KiÓm ®Þnh
gi¶ thuyÕt
Suy luËn
th«ng kª
(ChØ ¸p
dông cho
mÉu x¸c
suÊt víi
cì mÉu
®ñ lín)
KÕt luËn ngo¹i suy
C¸c test
thèng kª
Gi¸ trÞ p
Lùa chän
M« t¶ c¸c tham sè mÉu
(tr×nh bµy kÕt qu¶ nghiªn c−ó)
Tham sè mÉu
( , s, p...)BiÕn sè
Thèng kª
m« t¶
Thèng kª suy luËn
X
3Ước lượng:
ngoại suy từ tham số mẫu ra tham số quần thể:
từ trung bình của mẫu ( ) sang TB quần thể (µ)
từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P)
từ OR, RR, r của mẫu ra quần thể.
Kiểm định giả thuyết:
so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt của
2 hoặc nhiều mẫu rút ra từ chính quần thể đó.
kiểm định mối tương quan của quần thể dựa theo mối
tương quan thu được từ mẫu
X
12802954 ±=± sX
TrÎ s¬ sinh
t¹i huyÖn A
5000 trÎ
MÉu
500 trÎ
Tham sè mÉu:
??±=±σµTham sè QT:
−íc l−îng hay kiÓm ®Þnh?
4TrÎ s¬ sinh
t¹i huyÖn A
5000 trÎ
MÉu
500 trÎ
Tû lÖ trÎ (p) cã c©n nÆng
< 2500 gram = 20%
−íc l−îng hay kiÓm ®Þnh?
Tû lÖ trÎ (P) cã c©n nÆng
< 2500 gram = ?
TrÎ s¬ sinh
t¹i huyÖn A
5000 trÎ
TrÎ s¬ sinh
t¹i huyÖn B
6000 trÎ
MÉu
500 trÎ
MÉu B
500 trÎ
?
12802954 ± 8862785 ±>
−íc l−îng hay kiÓm ®Þnh?
51. Từ câu hỏi nghiên cứu đặt ra giả thuyết nghiên cứu
2. Đề xuất mức ý nghĩa thống kê thích hợp
3. Chọn test thống kê thích hợp
4. Xác định vùng suy xét hoặc vùng loại bỏ
5. Tính toán test thống kê
6. Đề xuất quyết định thống kê
7. Rút ra kết luận
Giả thuyết nghiên cứu là một giả định được đặt ra bởi
người nghiên cứu và được xuất phát từ câu hỏi
nghiên cứu
Giả thuyết không (null hypothesis – Ho): không có sự
khác biệt/ tất cả đều như nhau
Giả thuyết khác biệt (alternative hypothesis – Ha/H1):
được chấp nhận khi Ho bị loại bỏ (có sự khác biệt)
6 Sai lầm loại I: xảy ra khi giả thuyết Ho bị loại bỏ khi nó đúng
◦ Xác suất xảy ra sai lầm loại I chính là mức ý nghĩa thống kê
(α) thường bằng hoặc nhỏ hơn 0,05. Khi mức ý nghĩa
thống kê bằng 0,05, p<0,05, Ho bị loại bỏ.
Sai lầm loại II: xảy ra khi chấp nhận giả thuyết H1 khi nó sai
◦ Xác suất xảy ra sai lầm loại II gọi là β. Khi đó (1-β) được
gọi là lực của test (power test): khả năng loại trừ Ho khi Ha
là đúng
Chấp nhận
Ho
Loại bỏ Ho
Ho đúng ok Sai lầm loại I
Ho sai Sai lầm loại II ok
Ho bị loại
bỏ trong
khi nó
ñúng
Ho ñược chấp
nhân trong
khi nó sai
7 Khi giá trị P – có ý nghĩa thống kê ở mức 0,05 –
(100-5) 95% khoảng tin cậy sẽ không đi qua giá trị
“không” (null)
Giá trị “không” (null) là gì?
◦ Khi so sánh sự khác biệt (giá trị TB và tỷ lệ) giá trị
“không” chính là 0 (zero)
◦ Khi so sánh các đo lường về tỷ suất (OR, RR) giá
trị “không” là 1
Ví dụ:
Giá trị trung bình của sự khác biệt giữa 2
nhóm là 12 kg, 95% CI (-2 kg đến 23kg)
OR của mối liên quan giữa cà phê và và
ung thư phổi là 1,6, 95%CI (0,5-2,3)
8 Ở mức ý nghĩa thống kê 5%, giá trị giới hạn
(cut-off) của p là 0,05
Ở mức ý nghĩa thống kê 1%, giá trị giới hạn
(cut-off) của p là 0,01
Giá trị của p ñược tính toán dựa trên ñộ mạnh
của bằng chứng chống lại giả thuyết Ho
P Độ mạnh của bằng chứng
<0.001 Bằng chứng vô cùng mạnh mẽ
0,01 đến 0,001 Bằng chứng mạnh m
0,05 đến 0,01 Bằng chứng yếu
>0,05 Rất yếu hoặc không có bằng chứng
Giả thuyết Ho đã bị loại bỏ với nguy cơ sai lầm <5%
Xác suất để Ho đúng là <5%
Ho xảy ra chỉ là may rủi
Bác bỏ giả thuyết Ho
Xác suất để Ha (H1) đúng là >95%
Ha (H1) xảy ra là chắc chắn
Chấp nhận Ha
“p là xác suất xảy ra sự kiện nếu Ho là sự thật”
9 Chỉ giá trị của P chưa ñủ cơ sở ñể kết luận
Cần phải biết giá trị thực tế của ñộ lớn: OR,
RR, trung bình của sự khác biệt giữa 2 nhóm
1. Nếu p=0,05, giả thuyết Ho chỉ có 5% cơ hội xảy ra
2. Sự khác biệt không có ý nghĩa thống kê (p>=0,05) có
nghĩa là không có sự khác biệt giữa các nhóm
3. Kết quả có ý nghĩa thống kê có nghĩa là cũng rất quan
trọng về mặt lâm sàng
4. Các nghiên cứu có giá trị p ở về 2 phía của giá trị 0,05
là mâu thuẫn nhau
5. Các nghiên cứu có giá trị p như nhau cung cấp các
bằng chứng như nhau chống lại giả thuyết Ho
6. P=0,05 có nghĩa là khi chúng ta quan sát thì chỉ 5% sự
kiện xảy ra tuân theo giả thuyết Ho
10
7. P=0,05 và p<=0,05 là như nhau
8. Giá trị của p có thể được viết dưới dạng <= (p<=0,02
khi p=0,15)
9. P=0,05 có nghĩa là nếu bạn loại bỏ Ho, xác suất xảy ra
sai lầm loại I là 0,05
10. Với ngưỡng ý nghĩa 0,05, khả năng xảy ra sai lầm loại I
là 5%
11. Bạn nên sử dụng p một phía khi bạn không quan tâm
đến chiều hướng của kết quả hoặc sự khác biệt về một
hướng là không thể xác định
12. Các kết luận khoa học hay phương hướng điều trị căn
cứ vào việc giá trị p có ý nghĩa hay không
Test tham số và test phi tham số
Test cho biến ñịnh lượng và biến ñịnh tính
Test ghép cặp và test không ghép cặp
Test cho biến phụ thuộc và biến ñộc lập
11
Mục tiêu
Đo lường mối
liên quan
So sánh sự
khác biệt
Biến định
lượng (1)
Biến định
tính (2)
Biến định
lượng (3)
Biến định
tính (4)
Mục tiêu
Đo lường mối
liên quan
So sánh sự
khác biệt
Biến định
lượng (1)
Biến định
tính (2)
Biến định
lượng (3)
Biến định
tính (4)
12
X-Axis X-Axis
X-Axis
13
Nội dung kiểm tra Các chỉ số thể hiện phân bố
chuẩn
Kiểm tra biểu đồ cột
liên tục (histogram)
Có hình chuông và đối xứng
So sánh giá trị trung
bình và giá trị trung vị
Các giá trị này tương đối bằng
nhau
Tính toán skewness và
kurtosis
Nằm trong khoảng -1 đến +1 (có
thể chấp nhận -3 đến +3)
Kiểm tra bằng box plot
(biểu đồ hộp)
Không có các giá trị ngoại lai
Test kiểm tra phân bố
chuẩn
Skewness-kurtosis test
(sktest, p>0,05)
1. So sánh huyết áp tối đa của mẫu nghiên cứu với hằng
số sinh học của người Việt Nam (120mmHg)
2. So sánh huyết áp tối đa của nam và nữ trong mẫu
nghiên cứu
3. So sánh huyết áp tối đa của mẫu nghiên cứu trước và
sau điều trị thuốc hạ huyết áp
4. So sánh huyết áp tối đa của các nhóm có BMI khác
nhau (=25)
14
Mục tiêu
Đo lường mối
liên quan
So sánh sự
khác biệt
Biến định
lượng (1)
Biến định
tính (2)
Biến định
lượng (3)
Biến định
tính (4)
Khi bình
phương
test
Fisher
exact
test nếu
tần số
mong
đợi <5
2. Xác định sự khác biệt
biến định tính
1
nhóm
2
nhóm
Z
test
Độc
lập
Ghép
cặp
Độc
lập
Ghép
cặp
>2
nhóm
Khi bình
phương
của Mc
Nemar
Khi bình
phương
test
Cochran
Q test
15
1. So sánh tỷ lệ suy dinh dưỡng của mẫu nghiên
cứu với tỷ lệ chung của cả nước
2. So sánh tỷ lệ suy dinh dưỡng của nông thôn và
thành thị
3. So sánh tỷ lệ suy dinh dưỡng của một xã trước
và sau can thiệp
4. So sánh tỷ lệ suy dinh dưỡng của trẻ dưới 5 tuổi
là con của các bà mẹ có trình độ văn hóa khác
nhau (<tiểu học; trung học cơ sở; từ PTTH trở
lên)
Mục tiêu
Đo lường mối
liên quan
So sánh sự
khác biệt
Biến định
lượng (1)
Biến định
tính (2)
Biến định
lượng (3)
Biến định
tính (4)
16
3. Đo lường mối liên quan
biến định lượng
2 biến
Hệ số
tương
quan r
của
pearson
nếu
phân bố
chuẩn
Hồi
quy
tuyến
tính
>2 biến
Hệ số
tương
quan r của
spearman
nếu phân
bố không
chuẩn
Có giá trị từ -1 đến +1
Khi HSTQ = 0 ⇒ 2 biến không có tương quan tuyến tính
Khi HSTQ > 0 ⇒ tương quan đồng biến
Khi HSTQ < 0 ⇒ tương quan nghịch biến
Càng gần 1 ⇒ tương quan càng chặt
HSTQ = 1 ⇒ không có sai số ngẫu nhiên
Bình phương của HSTQ (r2) thể hiện tỷ lệ biến thiên của biến phụ thuộc
được quy là do sự thay đổi của biến độc lập (nếu giữa hai biến có quan hệ
nhân quả)
Quy ước:
◦ <0,3: tương quan yếu;
◦ 0,3 - 0,5: tương quan TB
◦ 0,5-0,7: tương quan chặt chẽ
◦ >0,7: tương quan rất chặt chẽ
17
x x
y
•
• •
•
•
•
•
•
•
•
•
•
•
x x
y
•
•
•
•
•
•
•
r = 0 r = 0•
•
•
•
•
•
•
•
•
•
y
Pham Ngan Giang
18
•
•
•
•
x x
y
•
•
•
•
•
•
r = +1
r = -1
•
•
y
Phương trình mô tả sự biến thiên của một biến định
lượng theo sự biến đổi của các biến khác
Y = a + bx1+bx2+bx3.
Y: biến phụ thuộc
X: biến độc lập
a: hằng số
b,c,d: hệ số
19
Biến phụ thuộc là biến ñịnh lượng có phân bố
chuẩn
Biến ñộc lập (giải thích) có thể là ñịnh tính
hoặc ñịnh lượng
Xác định mối tương quan giữa cân nặng và
chiều cao
Xây dựng mô hình hồi quy tuyến tính thể hiện
mối liên quan giữa cân nặng với chiều cao và
nhóm tuổi
20
Mục tiêu
Đo lường mối
liên quan
So sánh sự
khác biệt
Biến định
lượng (1)
Biến định
tính (2)
Biến định
lượng (3)
Biến định
tính (4)
4. Đo lường mối liên quan
giữa các biến định tính
2 biến
OR Hồi quy
logistic
>2 biến
RR
21
Nguy cơ tương đối (RR)
được tính bằng tỷ lệ mới
mắc của những người có
tiếp xúc với yếu tố nguy cơ
(phơi nhiễm)/tỷ lệ mới mắc
của những người không tiếp
xúc với yếu tố nguy cơ
(không phơi nhiễm)
RR=[a/(a+b)]/[c/(c+d)]
Áp dụng cho nghiên cứu
thuần tập
Bệnh Tổng
Có Không
Có
phơi
nhiễm
a b a+b
Không
phơi
nhiễm
c d a+d
Tổng a+c b+d n
Tỷ suất chênh (OR) được
tính bằng độ chênh giữa tỷ
suất giữa số phơi nhiễm
trong nhóm có bệnh(a/b) và
số phơi nhiễm trong nhóm
không có bệnh (c/d)
RR=[a/b]/[c/d]=ad/bc
Áp dụng cho nghiên cứu
ngang và nghiên cứu bệnh
chứng
Bệnh Tổng
Có Không
Có
phơi
nhiễm
a b a+b
Không
phơi
nhiễm
c d a+d
Tổng a+c b+d n
22
Xác ñịnh mối liên quan giữa tỷ lệ cao huyết
áp và giới tính của mẫu nghiên cứu
Xác ñịnh mối liên quan giữa tỷ lệ mắc cúm
và việc tiêm vaccine phòng cúm
RR, OR = 1 Không có mối liên quan
RR, OR > 1 Yếu tố nguy cơ
RR, OR < 1 Yếu tố bảo vệ
23
Để tìm mối liên quan giữa biến phụ thuộc là biến nhị
phân và các biến độc lập là định lượng hoặc định tính
Ví dụ: Nghiên cứu bệnh - chứng về tình trạng mắc bệnh
phong và có tiêm vaccine BCG, với các yếu tố nghi ngờ
nhiễu là tuổi, giới, nơi học,...
Biến phụ thuộc: Mắc bệnh phong
Biến độc lập: có sẹo BCG, tuổi, giới, nơi học,...
Các file đính kèm theo tài liệu này:
- kiem_dinh_gia_thuyet_hthv_2709.pdf