Bài giảng Thống kê cơ bản và phân tích số liệu
Hệ số tương quan (r)
• Hệ số tương quan r
– Có giá trị từ -1 đến +1
• Khi HSTQ > 0 tương quan đồng biến
• Khi HSTQ < 0 tương quan nghịch biến
• Càng gần 1 tương quan càng chặt
– Quy ước:
• <0,3: tương quan yếu
• >=0,3-0,5: tương quan TB
• >=0,5-0,7: tương quan chặt chẽ
• >=0,7: tương quan rất chặt chẽ
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê cơ bản và phân tích số liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
THỐNG KÊ CƠ BẢN VÀ
PHÂN TÍCH SỐ LIỆU
PGS. TS. Hoàng Văn Minh
Hà nội- 2013
NỘI DUNG
1. Khái niệm cơ bản về thống kê
2. Lựa chọn trắc nghiệm thống kê
3. Tính toán chỉ số nghiên cứu cơ bản
2
Bảng 10: Tỷ lệ mắc bệnh theo giới
Nam
n(%)
Nữ
n(%)
Chung
n(%)
Có bệnh 40 (66,7) 20 (33,3) 60 (100)
Không bệnh 50 (66,7)
25 (33,3)
75 (100)
Chung 90 (66,7)
45 (33,3)
135 (100)
Nhận xét: Tỷ lệ mắc bệnh ở nam giới cao gấp 2 lần tỷ lệ mắc bệnh
ở nữ giới. Sự khác biệt có ý nghĩa thống kê với p<0.01
Trình bày và phiên giải?
Trắc nghiệm thống kê?
1. So sánh tỷ lệ bác sỹ có thực hành lâm
sàng tốt ở 2 bệnh viện?
2. So sánh chi phí y tế của người dân
thành thị và nông thôn?
3. So sánh tổng điểm kiến thức của người
dân thuộc 3 xã?
3
Thống kê
“Phân môn toán học có nhiệm vụ thu thập,
phân tích, phiên giải và trình bày số liệu”
Thống kê
4
Số liệu là đối tượng chính của thống kê
Biến số# Hằng số
Các dạng số liệu (biến số)
Số liệu định lượng
Rời rạc (discrete): không có giá trị thập phân
Liên tục (continuous): Có giá trị thập phân
Số liệu định tính
Danh mục (nominal, categorical)
Thứ hạng (ordinal)
Nhị phân (binominal)
5
Dạng số liệu ?
Biến số Định lượng Định tính
Rời rạc Liên tục Định
danh
Thứ
hạng
Nhị phân
Tuổi
Trình độ
chuyên môn
Điểm kiến
thức
Cao huyết áp
(có, không)
Mức độ trầm
trọng của
bệnh
Nghề nghiệp
Quần thể và mẫu
Quần thể
Mẫu
Là 1 phần của quần thể, bao gồm những cá
thể mà chúng ta sẽ nghiên cứu
Toàn bộ các cá thể mà chúng ta đang quan tâm
6
Thống kê mô tả- suy luận
Thống kê mô tả (Descriptive statistics):
Kỹ thuật dùng để mô tả các đặc tính
của mẫu
Thống kê suy luận (Inferential
statistics): Quá trình suy luận từ đặc
tính của mẫu ra đặc tính của quần thể
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê
suy luận
Thống kê mô tả
7
Thống kê mô tả biến định lượng
Đo lường độ tập trung (Location)
Trung bình (mean)
Trung vị (median)
Mode
Đo lường độ phân tán (Spread )
Khoảng số liệu (range)
Khoảng tứ phân vị (25%-75%) (Interquartile )
Độ lệch chuẩn (Standard deviation)
Phương sai (Variance)
Trung bình
34 27 45 55 22 34
8
Trung vị
Dãy số lẻ
1, 5, 2, 8, 7
Dãy số chẵn
1, 5, 2, 10, 8, 7
Trung vị=5
1, 2, 5, 7, 8, 10
trung vị= ((5 + 7)/2 = 12/2 = 6)
Mode
Giá trị xuất hiện nhiều nhất
12, 12.5, 11, 13, 12.5 -> Mode = 12.5
9
Khoảng số liệu (biên độ)
120 140 120 150
130 160 180 165
170 150
Khoảng số liệu 120-180
Độ lệch chuẩn
1
)( 2
n
xx
SD
i
10
Độ lệch chuẩn
Điểm TB (x - TB) (x -TB)2
12
12.5
11
13
12.5
8
11.5
11.5
11.5
11.5
11.5
11.5
- 0.5
- 1
0.5
- 1.5
- 1
3.5
0.25
1
0.25
2.25
1
12.25
Tổng 17
SD = √ 17/(6-1) =1.84
Ví dụ
Điểm kiến thức
120 130 120 150
130 170 180 160
170 150
Tính toán trung bình, trung vị, mode,
khoảng số liệu và độ lệch chuẩn?
11
Thống kê mô tả biến định tính
Tần số
Tỷ lệ phần trăm
12
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê
suy luận
Thống kê mô tả
Thống kê suy luận
Ước lượng khoảng
Kiểm định giả thuyết
Quần thể
Mẫu
Chọn mẫu Thống kê
suy luận
Thống kê mô tả
13
Ước lượng khoảng-khoảng tin cậy
(confidence interval)
Thường chọn khoảng tin cậy 95% (95%CI)
Khi thực hiện đo đạc 100 lần thì it nhất 95 lần
kết quả nằm trong khoảng tin cậy
95% tin tưởng rằng giá trị thực của quần thể
nằm trong khoảng tin cậy
95%CI= Trung bình± 1,96*sai số chuẩn
14
Sai số chuẩn (standard errors)
95%CI= Trung bình± 1,96*sai số chuẩn
Ví dụ: Khoảng tin cậy (CI)
Nghiên cứu về kiến thức SDT trên 150
người cho kết quả sau:
Điểm trung bình là 900 (sd=2.5)
Tỷ lệ có kiến thức tốt là 40%
Tính toán khoảng tin cậy 95% của
Điểm kiến thức
Tỷ lệ có kiến thức tốt
Phiên giải kết quả???
15
Quần thể
Mẫu NC
Chọn mẫu Ngoại suy Trắc nghiệm thống kê
Kiểm định giả thuyết
sử dụng trắc nghiệm (test) thống kê để đưa ra kết luận về
giả thuyết của nhà nghiên cứu là chấp nhận được hay không
Kiểm định giả thuyết
Giả thuyết Ho: Không có sự khác biệt
Giả thuyết Ha: Có sự khác biệt
16
Ví dụ
Giả thuyết Ho:
Giả thuyết Ha:
Sai lầm
Thực tế
Quyết định
H0 đúng H0 sai
Chấp nhận H0
Sai lầm II ()
Loại bỏ H0
Sai lầm I ()
17
Mức ý nghĩa thống kê
Loại bỏ sai lầm loại I
= 0.05
p = probability= Xác suất để giả thuyết Ho đúng
P<0.05 = Xác suất để giả thuyết Ho đúng là < 5%
= Ho xảy ra chỉ là may rủi
= Bác bỏ Ho
= Xác suất để giả thuyết Ha đúng là > 95%
= Ha xảy ra là chắc chắn
= Chấp nhận Ha
P>0.05 = ???
Độ mạnh
Loại bỏ sai lầm loại II
1- = 80%
Thường dùng trong tính toán cỡ mẫu
18
Mức ý nghĩa
thống kê ()
z (1-/2)
.01 (99) 2.576
.02 (98) 2.326
.05 (95) 1.960
.10 (90) 1.645
Độ mạnh
(1-)
z (1-)
.80 0.842
.85 1.036
.90 1.282
.95 1.645
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê
suy luận
Thống kê mô tả
Trắc nghiệm thống kê
19
Mục tiêu
Xác định mối liên quan Xác định sự khác biệt
So sánh điểm số thực hành
trước và sau can thiệp?
Điểm kiến thức liên quan đến
tuổi, trình độ, tuyến công tác?
Lựa chọn trắc nghiệm thống kê
Lựa chọn trắc nghiệm thống kê
Xác định sự khác biệt
Xác định liên quan
Biến định lượng
Biến định tính
1
2
3
4
MỤC TIÊU BIẾN SỐ
20
1. Xác định sự khác biệt
biến định lượng
1
nhóm
2
nhóm
t test
ANOVA
(ph.sai đ
nhất)
>2
nhóm
Đ.lập:
Mann-
Whitney
test
Gh. cặp:
Sign test
Wilcoxon
test
Kruskal-
Wallis test
ttest đlập
ttest g.cặp
Ph bố
Chuẩn
Chuẩn &
K chuẩn
Sign test
Wilcoxon
test
Ph bố
Chuẩn
Chuẩn &
K chuẩn
Ph bố
Chuẩn
Chuẩn &
K chuẩn
Kiểm định phân bố số liệu
21
Phân bố chuẩn
Giá trị mong đợi =5
Xác định
sự khác
biệt
biến định
tính
Fisher's exact test Khi bình phương
>1 NHÓM
1 NHÓM Ztest
22
Giá trị quan sát và mong đợi
Tốt Không tốt Tổng
Tỉnh 4 5 9
Huyện
3 3 6
Tổng 7 8 15
Giá trị mong đợi = (Tổng hàng * Tổng cột) / Tổng chung
Xác định mối liên quan
3. Biến định lượng:
Hệ số tương quan (r)
pearson
spearman
Hồi quy tuyến tính
4. Biến định tính
Tỷ suất chênh (OR), nguy cơ tương đối (RR)
Hồi quy logistic
23
Hệ số tương quan (r)
• Hệ số tương quan r
– Có giá trị từ -1 đến +1
• Khi HSTQ > 0 tương quan đồng biến
• Khi HSTQ < 0 tương quan nghịch biến
• Càng gần 1 tương quan càng chặt
– Quy ước:
• <0,3: tương quan yếu
• >=0,3-0,5: tương quan TB
• >=0,5-0,7: tương quan chặt chẽ
• >=0,7: tương quan rất chặt chẽ
Hệ số tương quan (r)
24
Tương quan của 2 biến định tính
Khi muốn tìm cường độ mối liên quan giữa hai
biến định tính=> có thể sử dụng:
– Tỷ suất chênh: OR
– Nguy cơ tương đối: RR
Tốt Không tốt Tổng
Tỉnh 4 5 9
Huyện
3 3 6
Tổng 7 8 15
OR và RR
>1 Yếu tố nguy cơ
=1 Không liên quan
<1 Yếu tố bảo vệ
25
Phân tích
thống kê
TK mô tả
(Đặc tính của
mẫu)
Định lượng
(Trung bình, trung vị,
mode, biên độ, độ lệch
chuẩn, phương sai)
Định tính
(Tần số, tỷ lệ %)
TK suy luận
( Ngoại suy từ
kết quả của
mẫu ra quần
thể)
Khoảng tin cậy
(Trung bình ± 1,96* SE)
Định lượng
se= sd/sqrt(n)
Định tính
se=sqrt(p*(1-p)/n)
Kiểm định giả thuyết (Trắc
nghiệm thống kê)
Phân tích sự khác biệt
Định lượng
1 nhóm
Phân bố chuẩn
(ttest)
Phân bố không chuẩn
(sign test, Wilcoxon test)
2 nhóm
Phân bố chuẩn
(ttest độc lập, ghép cặp)
Phân bố không chuẩn
(Đ.lập: Mann-Whitney
test; Gh. cặp: Sign test,
Wilcoxon test )
Trên 2 nhóm
Phân bố chuẩn phương
sai đồng nhất
(Anova test)
Phân bố chuẩn phương
sai không đồng nhất
(Kruskal-Wallis test)
Phân bố không chuẩn
(Kruskal-Wallis test)
Định tính
(Khi bình phương, fisher
exact test)
Phân tích tương quan
Định lượng
Phân bố chuẩn
(Hệ số tương quan
pearrson, hồi quy tuyến
tính)
Phân bố không chuẩn
(Hệ số tương quan
spearman, hồi quy tuyến
tính chuyển dạng)
Định tính
(OR, RR, hồi quy logistic)
Các file đính kèm theo tài liệu này:
- bai_10_khai_niem_thong_ke_8003.pdf