Giáo trình môn thống kê y học

GIÁO TRÌNH MÔN THỐNG KÊ Y HỌC TRƯỜNG CAO ĐẲNG Y TẾ HẢI PHÒNG KHOA KHOA HỌC CƠ BẢN GIÁO TRÌNH MÔN THỐNG KÊ Y HỌC GIÁO VIÊN: ĐỖ NGỌC ANH HẢI PHÒNG 11/2011 ĐẠI CƯƠNG VỀ THỐNG KÊ Y TẾ, NGUỒN SỐ LIỆU VÀ THÔNG TIN Y TẾ. MỤC TIÊU 1. Trình bày được các khái niệm cơ bản về thống kê và thống kê YTCC. 2. Mô tả các giai đoạn của điều tra thống kê. 3. Trình bày các giai đoạn của tổng hợp thống kê. 4. Mô tả các giai đoạn của phân tích thống kê. NỘI DUNG 1. KHÁI NIỆM: Khoa học thống kê là một ngành khoa học ra đời và phát triển theo nhu cầu của họat động xã hội. Năm 1759, Achenwall đã dùng từ “Status” có nghĩa là “nhà nước” hay “trạng thái của hiện tượng” dần dần trở thành “statistics” và có nghĩa “thống kê” như hiện nay. Sau nhiều tranh luận, người ta đi đến thống nhất về định nghĩa ngành thống kê như sau: 1.1. Định nghĩa: Thống kê học hay khoa học thống kê là một môn khoa học xã hội, chuyên nghiên cứu những hiện tượng và quá trình kinh tế – xã hội xảy ra có tính chất hàng loạt, bằng cách thu thập và phân tích các số liệu cũng như các kết quả đã quan sát được về các hiện tượng và quá trình đó để đi đến những kết luận có ý nghĩa về mặt lý luận hay thực tiễn”. 1.2.Thống kê y tế công cộng: Khi các số liệu được phân tích và phiên giải thu được từ những hoạt động trong các lĩnh vực về sinh học thì được gọi là thống kê sinh học (biostatistics) để phân biệt với các ứng dụng của thống kê trong các lĩnh vực khác. Thống kê sinh học được sử dụng để nghiên cứu các vấn đề sức khỏe công cộng nhằm mục đích phát hiện và chứng minh mối liên quan giữa các yếu tố môi trường và xã hội tác động đến sức khỏe con người nên được gọi là thống kê y tế công cộng, là một công cụ đắc lực và không thể thiếu của các nhà y tế công cộng 1.3. Các giai đoạn của công tác thống kê: Hoạt động thống kê thường bao gồm 3 giai đoạn chủ yếu là điều tra thống kê, tổng hợp thống kê và phân tích thống kê. Mỗi giai đoạn đều có vai trò quan trọng và liên quan mật thiết với nhau, nếu sai sót ở bất kỳ một giai đoạn nào đều ảnh hưởng trực tiếp đến quá trình nghiên cứu và kết quả nghiên cứu có thể bị sai chệch nhưng bước đầu tiên và rất cơ bản là điều tra thống kê. 2. ĐIỀU TRA THỐNG KÊ 2.1. Định nghĩa: Điều tra thống kê là tổ chức một cách khoa học và theo một kế hoạch thống nhất việc thu thập, ghi chép nguồn tài liệu ban đầu về các hiện tượng và quá trình kinh tế - xã hội. 2.2. Đặc điểm của điều tra thống kê: - Quan sát trên số lớn hiện tượng . - Thực hiện trên diện rộng và có quan hệ trực tiếp với quần chúng. - Tiến hành theo nội dung, phương pháp và kế hoạch thống nhất. 2.3. Các nội dung cần chú ý khi tiến hành điều tra thống kê: 2.3.1. Mục đích điều tra: Qui định rõ cuộc điều tra nhằm tìm hiểu vấn đề gì, phục vụ cho yêu cầu nghiên cứu nào. 2.3.2. Đối tượng điều tra – Đơn vị điều tra:

52 trang | Chia sẻ: tlsuongmuoi | Lượt xem: 7815 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Giáo trình môn thống kê y học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ủa đại lượng ngẫu nhiên biểu thị tình trạng suy dinh dưỡng của huyện X. Căn cứ vào mẫu điều tra về trẻ suy dinh dưỡng trong huyện và quy tắc kiểm định ta sẽ đi đến kết luận là bác bỏ hay chấp nhận giả thuyết nêu trên. 5.1.2. Sai lầm loại 1 và sai lầm loại 2: Khi kiểm định giả thuyết thống kê ta có thể gặp các sai lầm sau đây: - Sai lầm loại 1- sai lầm : sai lầm xảy ra khi ta bác bỏ giả thuyết Ho mà thực ra giả thuyết đó đúng. Xác suất mắc phải sai lầm này bằng , nếu càng bé thì khả năng mắc sai lầm loại 1 càng ít. - Sai lầm loại 2 - sai lầm : sai lầm gặp phải khi ta chấp nhận giả thuyết Ho mà thực tế Ho lại sai. 5.2. Sử dụng các test thống kê để phân tích (xem chi tiết ở bài Chọn test thống kê): Tùy theo yêu cầu nghiên cứu mà ta dùng các test kiểm định khác nhau, trong thực tế ta hay sử dụng các loại test sau đây: - Test kiểm định Z-test và 2 (khi - bình phương): sử dụng trong trường hợp biến nghiên cứu định tính. - Test kiểm định t (Student), ANOVA : sử dụng trong trường hợp biến nghiên cứu định lượng liên tục. 6. PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH: Phân tích số liệu một nghiên cứu khoa học là giai đoạn chủ yếu nhất của một công trình nghiên cứu khoa học. Số liệu định tính thể hiện tính chất của biến số nghiên cứu giúp nhà nghiên cứu xác định được bản chất của hiện tượng nên việc phân tích số liệu định tính có những bước khác nhau. Số liệu định tính được thu thập bằng các phương pháp đặc thù như phỏng vấn, thảo luận nhóm, quan sát thực địa ... theo yêu cầu nghiên cứu, ta có thể tiến hành theo các bước như sau: Mã hóa số liệu, Tổng hợp số liệu và Phân tích số liệu 6.1. Mã hóa: 6.1.1. Xây dựng bảng mã: Thông tin thu thập được mã hóa bằng các từ khóa ngắn gọn hay bằng các chữ số để người nghiên cứu dễ dàng truy xuất các thông tin liên quan. Ví dụ: - Nam: 1 Nữ: 2 - Trẻ em dưới 5 tuổi bị suy dinh dưỡng: TESDD - Một trong những nguyên nhân gây cho trẻ suy dinh dưỡng là bà mẹ chưa đủ kiến thức nuôi con: Thieu_KTNUOICON - Cho ăn dặm sớm: AD_som - Bà mẹ chồng là người có tác động chủ yếu đến việc cho trẻ ăn dặm sớm: MECHONG_AD_som 6.1.2. Bảng mô tả các mã đã sử dụng: Để tránh sự trùng lắp các mã và để hiểu rõ ý nghĩa của từng mã đã sử dụng trong nghiên cứu, ta cần xây dựng một bảng mã thống nhất, dễ hiểu, dễ nhận dạng Căn cứ vào bảng mã, ta tiến hành mã hóa số liệu, kiểm tra lại các thông tin liên quan đến chủ đề nghiên cứu đã được mã hóa hết chưa, có nội dung nào chưa được mã hóa hay ngược lại, có ký hiệu mã hóa ghi trong bảng mã mà không tìm thấy nội dung trong văn bản. Stt Bảng mã Ý nghĩa 1 Giới tính 1 Giới tính nam của đối tượng được phỏng vấn 2 Giới tính 2 Giới tính nữ của đối tượng được phỏng vấn 3 TESDD Trẻ em suy dưới 5 tuổi bị suy dinh dưỡng 4 Thieu_KTNUOICON Một trong những nguyên nhân gây cho trẻ dưới 5 tuổi bị suy dinh dưỡng là bà mẹ chưa đủ kiến thức nuôi con. 5 AD_som Một nguyên nhân khác có thể gây cho trẻ dưới 5 tuổi bị suy dinh dưỡng là bà mẹ cho trẻ ăn dặm quá sớm 6 MECHONG_AD_som Bà mẹ chồng là người có tác động chủ yếu đến việc cho trẻ ăn dặm sớm 7 KIENG_gio−nang Trẻ sơ sinh phải kiêng gió, kiêng nắng … …. 6.2. Tổng hợp số liệu: Tập hợp các số liệu đã mã hóa có liên quan theo các chủ đề nhỏ để từng bước hình thành chủ đề chính, ví dụ: cho trẻ ăn dặm sớm -> tiêu hóa của trẻ khó khăn -> rối lọan tiêu hóa chưa biết chăm sóc con -> con dễ ốm đau, bệnh tật kinh tế khó khăn -> không đủ thức ăn phù hợp cho trẻ không biết chế biến thức ăn thích hợp cho trẻ nhỏ -> tiêu hóa trẻ khó khăn mẹ phải lao động kiếm sống -> không có thời gian chăm sóc con -> trẻ thiếu sự chăm sóc, dễ bệnh tật Như vậy ta cần phân loại các mã số để xếp loại và tính tỷ lệ các loại. 6.2.1. Một số thang đo hay sử dụng: Thang đo định danh: chia đối tượng nghiên cứu thành các nhóm khác nhau, mỗi nhóm có một đặc trưng không so sánh được với nhóm khác, ví dụ khi hỏi về hành tìm kiếm dịch vụ chăm sóc sức khỏe cho người ốm trong gia đình: “Anh/chị sẽ làm gì đầu tiên khi trong gia đình có người ốm?” + đưa người ốm đến trạm y tế xã + đưa người ốm đến thầy thuốc tư + đưa người ốm đi bệnh viện + tự mua thuốc về điều trị + khác (cụ thể là gì?.........) Qua trả lời của đối tượng ta sẽ có các chọn lựa khác nhau tạo nên mỗi nhóm riêng biệt, ví dụ có nhóm “tự đi mua thuốc về điều trị” đang là vấn đề của việc an tòan hợp lý thuốc hiện nay. Thang đo Likert: Một trong các thang đo phổ biến trong nghiên cứu định tính là thang Likert trong đó sự đồng tình của người được phỏng vấn được chia làm các mức độ từ thấp đến cao, thông thường người ta chia làm 5 mức độ: Hoàn toàn không đồng ý 1 Không đồng ý 2 Không ý kiến/không biết 3 Đồng ý 4 Hoàn toàn toàn đồng ý 5 Ngoài ra ta còn dự phòng trường hợp một số đối tượng không hợp tác khi phỏng vấn vì nhiều nguyên nhân chủ quan và khách quan nên không trả lời được các câu hỏi về một vấn đề sức khoẻ. 6.2.2.Trình bày dữ liệu bằng ma trận: Ma trận là một bảng trống bên trong các ô là các từ ghi nội dung thu thập được theo các nhóm đối tượng khác nhau. Trình độ học vấn Hành vi tìm kiếm dịch vụ y tế Làm gì thêm? Các bà mẹ có học vấn ≤ cấp 1 Tự đi mua thuốc về điều trị theo lời dặn của người bán thuốc, không khỏi bệnh mới đến TYT để khám. Hỏi người thân, bạn bè về mức độ bệnh để chia xẻ lo lắng, cúng vái để cầu xin. Các bà mẹ có học vấn từ cấp 2 trở lên. Đến ngay trạm y tế, không khỏi thì đi bệnh viện tuyến trên. Hỏi CBYT địa phương về tình hình bệnh và cách xử trí. Ma trận này giúp ta thấy được sự khác nhau trong việc tìm kiếm dịch vụ chăm sóc sức khỏe cho người thân của các bà mẹ với các trình độ học vấn khác nhau, cách chia xẻ mối quan tâm về bệnh cũng khác nhau. 6.3. Phiên giải kết quả nghiên cứu: Để tiến hành thuận lợi việc phân tích, các số liệu phải được sắp xếp hợp lý, tuần tự theo mục tiêu nghiên cứu. Số liệu thu thập được đưa vào ma trận nhưng chủ yếu là nội dung của thông tin. Vấn đề sức khỏe thường liên quan nhiều yếu tố khác nhau nên cần sơ đồ hóa mối quan hệ để dễ hình dung về thông tin thu thập được và phác họa các bước tiến hành phân tích. Kiểm tra kết quả nghiên cứu : do không được chọn mẫu theo một qui trình chặt chẽ như nghiên cứu định lượng nên ta cần kiểm tra thông tin thu thập được có tính logic hay không, có phải là đại diện chưa, có thể tiến hành kiểm tra chéo để phát hiện thông tin nhầm lẫn và kiểm tra ngay cả những người đi thu thập thông tin có bảo đảm giữ được tính trung lập trong quá trình thu thập không. 6.4. Lập báo cáo: Việc báo cáo kết quả nghiên cứu cần phải được đặt ra ngay từ khi tổng hợp số liệu để kết hợp với quá trình phân tích để có kết luận phù hợp. Trong báo cáo cần nêu rõ bối cảnh tiến hành nghiên cứu, thực tế thu thập thông tin, những thuận lợi và khó khăn trong quá trình tiếp cận đối tượng, báo cáo phản ánh khách quan những điều tra thu thập được trong quá trình nghiên cứu. Bài tập: Xác định nguồn số liệu và phương pháp thu thập số liệu phù hợp nhất cho các tình huống sau: Mô hình bệnh tật của vùng X năm 2009. Mười bệnh có tỷ lệ mắc cao nhất tại cộng đồng Số phụ nữ trong độ tuổi sinh đẻ ở vùng A trong năm 2009 Tỷ suất phát triển dân số của cả nước Hiệu quả của một phương pháp điều trị mới. Số vụ tai nạn giao thông xảy ra theo địa bàn tỉnh/thành. Ảnh hưởng của hút thuốc lá lên tình trạng bệnh tim mạch ở người trưởng thành. Mức độ hài lòng của người dân với dịch vụ chăm sóc, điều trị tại bệnh viện X BIẾN SỐ TRONG NGHIÊN CỨU SỨC KHỎE, TÓM TẮT CÁC SỐ LIỆU Y TẾ MỤC TIÊU 1. Nêu khái niệm biến số và các loại biến số định lượng và định tính.2. Chỉ ra mối quan hệ giữa các biến số.3. Phân biệt được nghiên cứu định lượng và nghiên cứu định tính NỘI DUNG 1. KHÁI NIỆM BIẾN SỐ (variable): Biến số là một tiêu thức mà người nghiên cứu lựa chọn để quan sát, đo lường trong quá trình nghiên cứu. Giá trị của biến số thường khác nhau giữa các cá thể trong một quần thể và khác nhau trong các lần quan sát khác nhau 2. PHÂN LOẠI BIẾN SỐ: 2.1. Biến định tính (qualitative variable): Là loại biến số thể hiện tính chất chứ không thể hiện độ lớn của hiện tượng nghiên cứu. 2.1.1. Biến danh mục (nominal variable): Biến được sắp xếp theo tên gọi hoặc phân loại theo một tiêu chuẩn nào đó nhưng không biểu thị thứ hạng giữa các nhóm. 2.1.2. Biến thứ hạng (ordinal variable): Có khi còn gọi là biến hạng mục, khái niệm giống như biến danh mục nhưng ta có thể xếp thứ tự theo qui ước nào đó. 2.2.3. Biến nhị phân (binominal variable): Là biến chỉ nhận một trong hai giá trị. Ví dụ: giới tính nam hay nữ, khỏe hay ốm, nhiễm bệnh hay không...là các biến nhị phân hay gặp trong các nghiên cứu y học. 2.2. Biến định lượng (quantitative variable): Khác với biến định tính, biến định lượng là loại biến thể hiện độ lớn của hiện tượng nghiên cứu. Biến định lượng nhận các số liệu có giá trị là số thực và chia làm 2 loại: 2.2.1. Biến định lượng rời rạc: Biến chỉ nhận một số giá trị riêng biệt và nguyên, giá trị của biến số thường là kết quả của sự đếm, ví dụ đếm số trứng giun trong tiêu bản thì chỉ có các giá trị 1, 2, 3... 2.2.2. Biến định lượng liên tục: Biến nhận các giá trị thực và liên tục, ví dụ số đo huyết áp của mỗi người. 2.2.3. Biến tỷ suất (ratio variable): Biến nhận giá trị zéro là giá trị thực, ví dụ biến chiều cao là biến tỷ suất vì khi chiều cao bằng 0 nghĩa là không có độ cao. Với loại biến số này ta có thể so sánh sự khác biệt của các lần quan sát khác nhau, ví dụ khi theo dõi cân nặng trẻ mới sinh, một em bé có trọng lượng 3800 gam sẽ nặng gấp đôi em bé khác cũng vừa mới sinh nhưng chỉ cân nặng 1900 gam. Đây là loại biến số có ý nghĩa đo lường chính xác nhất. 2.2.4. Biến khoảng chia (interval variable): Là biến nhận giá trị zéro chỉ là qui ước chứ không có giá trị 0 thực sự. Ví dụ: biến nhiệt độ bách phân 0C là biến khoảng chia vì giá trị 00C là thời điểm chuyển trạng thái của nước từ thể lỏng sang thể rắn mà thôi. Ta không thực hiện được các phép tính trên loại biến này, ví dụ không thể nói một phòng có nhiệt độ 300C là nóng gấp ba lần nhiệt độ ở một phòng có nhiệt độ 100C! Biến định tính Biến định lượng Rời rạc Liên tục Nơi ở hiện tại của bệnh nhân Bệnh nhân cấp cứu Tuổi Giới tính Trứng giun trên tiêu bản Chiều cao Lý do nhập viện Hộ có trên 2 con Thời gian bú mẹ Tình trạng sức khỏe Trẻ SDD trong xã Độ dày lớp mỡ dưới da Mức sống (nghèo, TB, giàu) Viên thuốc bị hỏng Huyết áp 2.3. Quan hệ giữa các biến: 2.3.1. Biến độc lập (independent variable): Là biến được sử dụng để mô tả, đo lường các yếu tố được coi là nguyên nhân hay có ảnh hưởng đến vấn đề nghiên cứu. 2.3.2. Biến phụ thuộc (dependent variable): Là hậu quả của sự tác động các biến độc lập, là biến được sử dụng để mô tả, đo lường các vấn đề đang nghiên cứu. Việc xác định các biến độc lập hay phụ thuộc tùy thuộc vào người nghiên cứu nên khi thiết kế nghiên cứu cần nói rõ biến nào là biến phụ thuộc, biến nào là biến độc lập. Ví dụ: Khi tìm hiểu lý do vì sao người ta hút thuốc lá thì “hút thuốc lá” là biến phụ thuộc, còn do “ bắt chước bạn bè” là biến độc lập. 2.3.3. Biến gây nhiễu (confounding variable): Yếu tố ảnh hưởng đồng thời lên nguyên nhân và hậu quả trong mối tương quan nhân – quả, biến gây nhiễu có thể làm tăng thêm hay làm yếu đi sự liên hệ giữa một vấn đề đang nghiên cứu và nguyên nhân gây ra vấn đề đó. Việc xác định biến số trong một nghiên cứu cần phải rõ ràng, ví dụ nghiên cứu về tình trạng hút thuốc lá của thanh thiếu niên thì biến số “hút thuốc lá” phải được xác định cụ thể như hút bao nhiêu năm, hút bao nhiêu điếu/ngày, sử dụng thuốc lào; thuốc lá vấn có được xem là hút thuốc lá không, một người từ trước đến khi được phỏng vấn chỉ hút một lần thì có được xem là một trường hợp hút thuốc lá không… 2.4. Ích lợi của việc phân loại biến số: 2.4.1. Xác định các chỉ số nghiên cứu: Thông qua các biến số nghiên cứu ta xác định các chỉ số nghiên cứu. 2.4.2. Chọn cách thu thập số liệu: Phỏng vấn để đánh giá kiến thức, đo đạc để có số liệu định lượng liên quan cần thiết. 2.4.3. Chọn test thống kê thích hợp: Tùy theo biến là định tính hay định lượng để chọn test cho phù hợp. 2.4.4. Chọn cách trình bày số liệu: Biến định tính hay biểu diễn bằng bảng tần số, biến định lượng thường biểu diễn bằng trung bình, độ lệch chuẩn... 3. Phân biệt nghiên cứu định lượng và nghiên cứu định tính : 3.1. Nghiên cứu định lượng: Là loại hình nghiên cứu dùng để đo lường kích thước, sự phân phối và sự kết hợp của biến số trong quần thể nghiên cứu. 3.2. Nghiên cứu định tính: Là loại hình nghiên cứu để xác định và thăm dò một số biến số có liên quan đến hiện tượng nghiên cứu, giúp ta hiểu sâu bản chất và nguyên nhân của vấn đề, hiểu rõ hậu quả và đối tượng bị ảnh hưởng của vấn đề đó. Tiêu thức Nghiên cứu định lượng Nghiên cứu định tính Mục đích Đo lường độ lớn, sự phân bố, sự kết hợp của biến số Thăm dò để hiểu sâu nguyên nhân và bản chất của vấn đề nghiên cứu Câu hỏi Bao nhiêu? Cái gì? Tại sao? Ưu điểm - Độ chính xác cao - Có giá trị khoa học - Có phương pháp phân tích cụ thể - Áp dụng phương pháp đánh giá nhanh - Một bước NC thăm dò nghiên cứu định lượng Nhược điểm Cần biết phải chọn mẫu và cỡ mẫu đúng quy cách Chọn mẫu và cỡ mẫu không quan trọng lắm Kỹ thuật thu thập Dùng bộ câu hỏi, đo lường, xét nghiệm, khám bệnh Phỏng vấn sâu, thảo luận nhóm, vẽ bản đồ, quan sát Công cụ thu thập Bệnh án, bộ câu hỏi Bản hướng dẫn Bài tập: Hãy phân loại chi tiết các biến số dưới đây: Nơi ở của bệnh nhân Trình độ học vấn của bệnh nhân Mức thu nhập của người dân (tính theo $) Tình trạng suy dinh dưỡng của trẻ em < 5 tuổi. Mức độ hài lòng với một loại dịch vụ y tế Số lượng bạch cầu/ml máu Có nước máy hay không? Hút thuốc lá (số điếu/ngày) Số lần khám thai tại trạm y tế xã của những phụ nữ có thai Hàm lượng đường trong máu (cao, bình thường, thấp) Trọng lượng của trẻ lúc mới sinh CÁC THAM SỐ ĐẶC TRƯNG CỦA THỐNG KÊ ĐO LƯỜNG CÁC MỐI LIÊN QUAN MỤC TIÊU 1. Nêu khái niệm, ý nghĩa và công thức tính của các tham số đặc trưng thống kê.2. Phân biệt các khái niệm về số liệu, thông tin và bằng chứng. NỘI DUNG 1. SỐ LIỆU ĐỊNH LƯỢNG 1.1. Trung vị (Median - Me) 1.1.1 Định nghĩa: Nếu có một dãy số quan sát thì trung vị là số đứng giữa dãy số, trung vị chia dãy số này làm 2 phần bằng nhau. 1.1.2. Cách xác định số trung vị: Muốn tìm trung vị ta phải: - Sắp xếp các giá trị quan sát theo thứ tự tăng hay giảm dần - Tìm số hạng đứng giữa dãy số - Xác định giá trị trung vị Ví dụ 1: số ngày nằm viện của 5 bệnh nhân như sau: 2 4 6 9 10 thì Me = 6 ngày còn = 6,2 ngày Ví dụ 2: số ngày nằm viện của 6 bệnh nhân như sau: 2 4 6 7 10 12 thì Me = (6+7)/2 = 6,5 ngày còn = 6,8 ngày 1.1.3. Tính chất: do trung vị không bị ảnh hưởng bởi số quá lớn hay quá bé của chuỗi nên nó có thể là đại biểu cho chuỗi. Ví dụ: ta có chuỗi giá trị quan sát: 1 2 3 41 3 thì Me = 3 trong khi =10 do không được tính toán từ các số liệu trong chuỗi nên trung vị không có ý nghĩa bằng số trung bình, khi số liệu có phân nhóm thì tính toán lại phức tạp hơn. 1.2. Mốt (Mode –Mo): 1.2.1. Định nghĩa: Mốt là tiêu thức gặp nhiều nhất trong quần thể nghiên cứu, mốt chính là giá trị quan sát có tần số cao nhất. Ví dụ: số con của các bà mẹ tham gia thảo luận nhóm về chăm sóc trẻ em tại xã Trường Xuân, Quảng Bình năm 2009 theo thứ tự phỏng vấn như sau: 1, 3, 2, 4, 2, 3, 2, 3, 3, 2 . Ta thấy có 4 bà mẹ có 3 con là tần số cao nhất trong nghiên cứu này nên Mo = 3 1.2.2. Ý nghĩa: Mốt cho ta biết giá trị xi nào hay gặp nhất trong chuỗi quan sát. 1.3. Số trung bình (Mean - ): Còn gọi là trung bình cộng là chỉ tiêu đại diện về mặt lượng theo một tiêu thức nghiên cứu nào đó của một quần thể bao gồm nhiều đơn vị cùng loại. 1.3.1. Số trung bình cộng đơn giản: Nếu ta có một dãy số quan sát các hiện tượng nghiên cứu là x1, x2, ..., xn thì số trung bình cộng của dãy số này là : x1, x2, ..., xn là các giá trị quan sát, n là số đơn vị quan sát Ví dụ: theo dõi cân nặng (kg) của 20 sinh viên ta có kết quả sau đây: 40 43 45 47 43 45 49 50 50 43 46 50 49 46 45 45 47 54 45 43 thì ta có trọng lượng trung bình của 20 sinh viên này là: 1.3.2.Số trung bình cộng có trọng số: Ví dụ: Với kết quả cân nặng của 20 sinh viên nói trên, ta có xi ni ni xi 40 1 40 43 4 172 45 5 225 46 2 92 47 2 94 49 2 98 50 3 150 54 1 54 20 925 Vậy trọng lượng trung bình của 20 sinh viên theo cách tính trung bình có trọng số là: 1.3.3. Khi số liệu phân nhóm: Ta lấy giá trị trung tâm của nhóm làm giá trị quan sát xi : Ví dụ: Theo dõi tuổi của bà mẹ đang sử dụng biện pháp tránh thai ở xã X năm 2006: Ranh giới nhóm Giá trị trung tâm Tần số å nixi 20-24 22,5 10 225 25-29 27,5 36 990 30-34 32,5 26 845 35-39 37,5 14 525 40-44 42,5 8 340 45-49 47,5 6 285 100 3210 Do đó = 3210/100 = 32,1 tuổi 1.3.4. Khi số liệu có khoảng cách k: ta gọi k : khoảng cách của nhóm n : tổng tần số xi : giá trị quan sát xo: gốc mới Ví dụ: Theo dõi HATT cuả 2750 người lớn nam cho ta bảng kết quả như sau: xi ni xi -xo x’i = (xi-xo)/k ni x’i 40 5 -30 -6 -30 45 8 -25 -5 -40 50 90 -20 -4 -360 55 186 -15 -3 -558 60 397 -10 -2 -794 65 464 - 5 -1 -464 70 =xo 598 0 0 0 75 431 5 1 431 80 315 10 2 630 85 185 15 3 555 90 46 20 4 184 95 25 25 5 125 2750 -2246+1925 = - 321 1.3.5. Chú ý :Nếu có 2 mẫu nghiên cứu trong đó mẫu 1 có số quan sát là n1 và trung bình là 1 và mẫu 2 có số quan sát là n2 và trung bình là 2 thì trung bình chung cho 2 mẫu là : Nếu n1 = n2 thì = (x1+x2)/2 1.4. PHƯƠNG SAI: Phương sai là chỉ số dùng để đánh giá độ biến thiên của các số liệu xung quanh số trung bình. Phương sai càng nhỏ thì quần thể nghiên cứu càng đồng nhất, tính đại biểu của số trung bình càng cao. 1.4.1. Định nghĩa : Phương sai là số trung bình cộng của bình phương các độ lệch giữa các giá trị xi với số trung bình của chúng 1.4.2. Công thức: 1.4.2.1. Nếu giá trị quan sát đơn lẻ: 1.4.2.2. Nếu giá trị quan sát có tần số : 1.4.2.3. Trong thực hành ta hay dùng công thức: 1.4.3. Để kết hợp tính toán với số trung bình ta dùng công thức: 1.4.4. Công thức để tính nhanh phương sai và phương sai hiệu chỉnh: Với Với 1.4.5. Độ lệch chuẩn (standard deviation): Ký hiệu là s hay SD, là căn bậc hai của phương sai, biểu thị sự biến thiên của một biến số nào đó giữa các đối tượng nghiên cứu trong một mẫu. 1.4.6. Cách tính số trung bình và độ lệch chuẩn s: xi ni x¢i = (xi -xo)/ k ni x¢i ni (x¢i)2 40 5 -6 -30 180 45 8 -5 -40 200 50 90 -4 -360 1440 55 186 -3 -558 1674 60 397 -2 -794 1588 65 464 -1 -464 464 70 = xo 598 0 0 0 75 431 1 431 431 80 315 2 630 1260 85 185 3 555 1665 90 46 4 184 736 95 25 5 125 625 -2246 + 1925 2750 -321 10.263 = (25/2750) [ 10.263 - (-321)2/ 2750 ] = (25/2750) (10263 - 37,47) = 92,95 Ta dùng hiệu chỉnh Sheppard: s2 = s2 - k2/ 12 = 92,95 - 2,08 = 90,87 s = 9,53 mmHg 1.4.7.Sai số chuẩn (standard error - SE): Với s là độ lệch chuẩn, n là số mẫu nghiên cứu thì: 1.4.8.Hệ số biến thiên: Được dùng để so sánh 2 nhóm số liệu có đơn vị đo lường khác nhau: Ví dụ: kết quả chiều cao và huyết áp đo được trên một mẫu bệnh nhân là: Giá trị Chiều cao (cm) Huyết áp (mmHg) 50,0 140,0 s 4,0 7,0 Đối với biến chiều cao: CV cao = (4/50) x 100 = 8% Đối với biến huyết áp: CV HA = (7/140) x 100 = 5% Như vậy dù độ lệch chuẩn của chiều cao bé hơn độ lệch chuẩn của huyết áp nhưng ta nhận xét rằng biến chiều cao vẫn bị biến thiên nhiều hơn so với biến huyết áp vì hệ số biến thiên CV của nó lớn hơn CV của huyết áp 2. SỐ LIỆU ĐỊNH TÍNH 2.1. CÁC KHÁI NIỆM TỶ SỐ, TỶ LỆ VÀ TỶ SUẤT: 2.1.1. Tỷ số (ratio): Có dạng trong đó a và b là 2 đại lượng không cùng một tập hợp nghĩa là các đại lượng ở mẫu số không bao hàm tử số. Ví dụ tỷ số nam/nữ khi mới sinh là 105 nam /100 nữ 2.1.2. Tỷ lệ (proportion): Là một phân số mà các phần tử của tử số nằm trong các phần tử của mẫu số, nghĩa là tử số và mẫu số bao gồm các đơn vị cùng tập hợp Tỷ lệ phổ biến nhất là tỷ lệ phần trăm: (a/b) x 100% Có tình huống do tử số quá bé so với mẫu số nên ta dùng tỷ lệ phần ngàn (‰), phần trăm ngàn (‰o) để dễ tính tóan hay so sánh các tỷ lệ. Ví dụ: tỷ lệ hộ gia đình nghèo ở Việt nam (2005) là 26,4%, tỷ lệ mắc phong là 0,1‰ 2.1.3. Tỷ suất (rate): Khi người nghiên cứu có quan tâm đến thời gian xảy ra sự kiện hay thu thập sự kiện trong một khoảng thời gian nào đó thì thường dùng tỷ suất. Như vậy tỷ suất là tỷ lệ được theo dõi trong một thời gian nhất định. Trong các nghiên cứu y tế công cộng, các tỷ số, tỷ lệ và tỷ suất thường được sử dụng để mô tả tình hình sức khỏe cộng đồng nên ta cần chú ý để sử dụng cho phù hợp. 2.2. TRÌNH BÀY SỐ LIỆU ĐỊNH TÍNH: Trong khi số liệu định lượng được mô tả bằng các tham số đặc trưng của thống kê thì số liệu định tính thường được tổng hợp dưới dạng bảng thống kê với các tỷ lệ. Ví dụ: Điều tra mức sống của các hộ gia đình ở một vùng X cho ta kết quả: Mức sống Số lượng Tỷ lệ % Giàu 10 2,94 Khá 30 8,82 Trung bình 100 29,42 Nghèo 200 58,82 Tổng số hộ 340 100,00 2.3. CHUYỂN SỐ LIỆU THÀNH THÔNG TIN VÀ BẰNG CHỨNG: Sau khi tiến hành điều tra thống kê ta có thể thu được nhiều số liệu nhưng để các số liệu này nói lên tình thực tế thì còn phải qua nhiều bước biến đổi. 2.3.1. Số liệu (dữ liệu – data) 2.3.1.1. Khái niệm: Số liệu là các đặc trưng thu được từ các cá thể nghiên cứu bằng các phương pháp thu thập thích hợp. 2.3.1.2. Ví dụ: Theo dõi cân nặng (tính bằng gam) của 30 trẻ sơ sinh một cách ngẫu nhiên ở vùng X trong năm 2006 ta có kết quả như sau: 2500 2400 2300 2600 1900 2850 2650 2450 2000 3300 2900 2450 2150 2000 2050 2200 3100 2250 2550 2650 2600 2500 2450 2300 2700 2650 2400 2200 2050 3450 2.3.2. Thông tin: 2.3.2.1. Khái niệm: Thông tin là sự thể hiện của số liệu qua các phép biến đổi khác nhau, thông tin chính là các số liệu đã được hệ thống hóa. 2.3.2.2. Ví dụ: Qua bảng số liệu nêu trên tuy có số liệu trọng lượng của các trẻ nhưng vẫn chưa cho ta thấy tình hình trọng lượng trẻ mới sinh năm 2006 tại vùng X như thế nào. Sau khi sắp thứ tự các số liệu này từ nhỏ đến lớn thì việc nhận định về tình trạng trọng lượng của trẻ dễ dàng hơn: 1900 2000 2000 2050 2050 2150 2200 2200 2500 2300 2300 2400 2400 2450 2450 2450 2500 2500 2550 2600 2600 2650 2650 2650 2700 2850 2900 3100 3300 3450 Vậy trong năm 2006, trẻ mới đẻ của vùng X có trọng lượng bé nhất là 1.900 gam và lớn nhất là 3.450 gam, có 16 trẻ mới đẻ nhẹ cân (< 2500 gam) và cân nặng trung bình của 30 trẻ này là 2.485 gam (74.550/30). Đây là các số liệu được rút ra từ số liệu được thu thập ở trên, số liệu này được gọi là thông tin vì nó đã được sắp xếp lại từ bộ số liệu gốc và có giá trị hơn khi cho ta biết tình hình thực tế vấn đề sức khỏe tại vùng X. 3.3. Bằng chứng: 3.3.1. Khái niệm: Bằng chứng là thông tin giúp ta tìm thấy sự khác biệt giữa các vấn đề sức khỏe theo thời gian hay không gian. 3.3.2. Ví dụ: Ta thấy trọng lượng trung bình của trẻ mới sinh vùng X vẫn chưa được như mong muốn (2500 gam) nên ta xây dựng một dự án can thiệp để bà mẹ sinh con có trọng lượng lớn hơn. Dự án được tiến hành trong 2 năm, sau đó theo dõi một cách ngẫu nhiên trọng lượng của 30 trẻ mới sinh, nếu trung bình trọng lượng của các trẻ này là 2550 gam, ta có thể dựa vào phép kiểm định thống kê để kết luận là sự can thiệp có hiệu quả. Như vậy các số liệu này là bằng chứng vì qua đó ta có thể tìm thấy sự khác biệt hay không về trọng lượng trẻ mới sinh ở vùng X sau 2 năm can thiệp. Bài tập: 1. Theo dõi tuổi của bệnh nhân mắc bệnh A nhập viện tháng 10/2009 tại một bệnh viện huyện X như sau: 63 72 62 69 71 84 81 60 76 86 69 64 87 76 84 80 71 67 55 69 1.1.Hãy tính các tham số thống kê có thể được (Me, Mo, Trung bình, Phương sai, Độ lệch chuẩn) 1.2.Vẽ biểu đồ thích hợp nếu chia số liệu thành 5 nhóm 2. Đo chiều cao và trọng lượng của nhóm sinh viên và học sinh cấp 1 cho ta kết quả: chiều cao trọng lượng sinh viên `x = 160 cm, s = 10 cm `y = 50 kg, s = 5kg học sinh cấp 1 `x = 115 cm, s = 7 cm `y = 30 kg, s = 6kg Bạn có nhận xét gì về độ phân tán của số liệu chiều cao và trọng lượng ở hai đối tượng nghiên cứu. XÂY DỰNG BIỂU ĐỒ THỐNG KÊ TRÌNH BÀY SỐ LIỆU MỤC TIÊU 1. Nêu được các loại biểu đồ thống kê.2. Lựa chọn biểu đồ thích hợp để trình bày số liệu nghiên cứu. NỘI DUNG 1. Ý NGHĨA: Biểu đồ thống kê còn gọi là đồ thị thống kê hay đồ biểu thống kê bao gồm các con số, hình vẽ bằng các đường nét hình học với màu sắc thích hợp để trình bày mặt lượng của hiện tượng nghiên cứu. 2. QUY TẮC CHUNG ĐỂ XÂY DỰNG BIỂU ĐỒ THỐNG KÊ: ü Rõ ràng, dễ hiểu, có khả năng tự giải thích ü Theo một tỷ lệ thích hợp ü Tránh nhiều đường nét rườm rà ü Ghi rõ đơn vị tính, ghi rõ chú thích, xuất xứ của số liệu 3. CÁC LOẠI BIỂU ĐỒ THỐNG KÊ: 3.1. Biểu đồ hình cột: Thường gặp loại đứng hay nằm ngang gồm các hình chữ nhật có chiều rộng bằng nhau còn chiều dài biểu thị tần số của biến nghiên cứu. Biểu đồ này giúp ta quan sát sự biến động của một biến nghiên cứu không liên tục. 3.1.1. Biểu đồ hình cột đứng: Các bệnh mắc cao nhất ở Việt Nam (100.000 dân) Kết quả điều tra toàn quốc - Bộ Y Tế năm 2007 3.1.2. Biểu đồ hình cột nằm ngang 3.2. Biểu đồ hình cột liên tục (Histogram-tổ chức đồ) 3.2.1. Định nghĩa: Cũng giống như biểu đồ dạng cột nhưng các hình chữ nhật xếp chồng khít lên nhau, biểu đồ này dùng để biểu diễn số liệu của biến định lượng liên tục khi đã phân nhóm. Khi các cột có độ rộng bằng nhau : cột có chiều cao lớn nhất biểu thị cho nhóm có tần số lớn nhất. Khi các cột có độ rộng không bằng nhau : tần số của nhóm được biểu diễn qua diện tích của hình chữ nhật, chiều cao của cột được vẽ chính là tỷ số của tần số của nhóm với độ rộng của nhóm. 3.2.2. Ví dụ: Tuổi của 100 phụ nữ trong độ tuổi sinh đẻ sử dụng biện pháp tránh thai Đa giác tần số (polygon): được cấu trúc từ biểu đồ cột liên tục bằng cách nối các điểm giữa các cột với nhau, 2 đầu mút của đa giác là trung điểm của 2 cột đứng kề trước và kề sau của các cột đã cho. 3.3. Loại biểu đồ cột chồng Thích hợp để so sánh các quần thể khác nhau trong khi mỗi quần thể có thể được biểu thị dưới dạng biểu đồ hình tròn. Ví dụ: So sánh tình trạng dinh dưỡng của trẻ em dưới 5 tuổi tại 3 xã A, B, C 3.4. Đồ thị hình tròn: biểu diễn cấu trúc của một hiện tượng theo một tính chất nào đó, ví dụ phân bố cán bộ y tế xã của một huyện theo số năm công tác 3.5. Đồ thị tương quan: Biểu diễn mối tương quan giữa 2 biến định lượng, ví dụ sự tiếp thu kiến thức thay đổi theo thời gian 3.6. Đồ thị đường gấp khúc: biểu thị tốc độ thay đổi của hiện tượng theo thời gian Ví dụ ngân sách y tế của quốc gia được phân bổ qua các năm như sau: Năm 2005 2007 2009 Ngân sách (tỷ đồng) 2513 4490 4750 3.7. Biểu đồ dạng đường thẳng: Thường dùng để biểu thị hướng thay đổi của một loại số liệu nào đó theo thời gian Ví dụ: Phân bố số trường hợp mắc thương hàn trong năm 2006 theo các vùng 3.8. Biểu đồ chấm (scatter): dùng để diễn tả mối tương quan giữa 2 biến định lượng liên tục. Ví dụ: số liệu của 10 người về chỉ số BMI và huyết áp tâm trương (DBP) BMI 23,7 33,1 26,9 20,6 18,1 23,2 24,1 26,9 21,5 24,5 DBP 106 114 112 67 84 85 90 120 78 94 3.8. Biểu đồ chấm (scatter): dùng để diễn tả mối tương quan giữa 2 biến định lượng liên tục. Ví dụ: số liệu của 10 người về chỉ số BMI và huyết áp tâm trương (DBP) BMI 23,7 33,1 26,9 20,6 18,1 23,2 24,1 26,9 21,5 24,5 DBP 106 114 112 67 84 85 90 120 78 94 4. CHỨC NĂNG CỦA CÁC BIỂU ĐỒ THỐNG KÊ: Loại biểu đồ Chức năng của biểu đồ Hình cột đứng, thanh ngang (bar chart) So sánh tần số, tỷ lệ của biến định tính hay giá trịtrung bình của biến liên tục Hình tròn (pie chart) Chỉ ra tỷ lệ khác nhau giữa các loại trong một nhómcủa một biến về định tính, tổng của các tỷ lệ này là 100% Hình cột chồng nhau So sánh một biến giữa nhiều quần thể Hình cột liên tục (histogram) Phân bố tần số giữa các nhóm của một biến địnhlượng liên tục Đa giác (polygon) Dạng đặc biệt của biểu đồ cột liên tục khi diện tích cộtbằng diện tích đa giác Đường (line) Biểu diễn biến thiên của một hiện tượng theo thời gianhay chỉ ra mối tương quan của 2 biến định lượng Biểu đồ chấm (scatter) Chỉ ra sự tương quan giữa 2 biến định lượng liên tục Bài tập: 1. Hãy biểu diễn bằng biểu đồ thích hợp tình hình người dân tham gia bảo hiểm y tế theo kết quả điều tra của Bộ y tế:(Theo niên giám Thống kê Bộ Y tế, 2007, trang 40) stt Năm Tỷ lệ % dân số tham gia BHYT 1. 1999 13,36 2. 2001 14,69 3. 2003 20,31 4. 2005 28,10 5. 2007 43,26 2. Hãy biểu diễn bằng biểu đồ thích hợp tình trạng hiện nay của người di cư so với trước khi di chuyển (đơn vị %, TCTK - 2005): Khỏe hơn nhiều Khỏe hơn Không đổi Yếu hơn Yếu hơn nhiều Không biết Chung 1,2 18,6 68,7 11,2 0,2 0,1 Nam 1,4 20,5 69,2 8,7 0,1 0,1 Nữ 1,1 17,2 68,3 13,2 0,2 0,1 CHỌN MẪU NGẪU NHIÊN VÀ ỨNG DỤNG TRONG NGHIÊN CỨU SỨC KHỎE MỤC TIÊU 1 .Trình bày được khái niệm về quần thể, mẫu, quần thể nghiên cứu và quần thể đích. 2. Trình bày được các số liệu thống kê bằng bảng phân phối tần số. 3. Vận dụng được các cách chọn mẫu và tính toán cỡ mẫu trong nghiên cứu sức khỏe. NỘI DUNG 1. Quần thể : Tập hợp tất cả các phần tử có liên quan đến tiêu thức nghiên cứu được gọi là quần thể hay tổng thể (population). Ví dụ như khi nghiên cứu về tình hình suy dinh dưỡng trẻ em < 5 tuổi ở vùng nông thôn thì tiêu thức cần nghiên cứu là "suy dinh dưỡng" thì các thông tin về suy dinh dưỡng thể hiện trên tất cả trẻ em trong vùng nên quần thể là tất cả trẻ em < 5 tuổi đang sống ở vùng đó. 2. Mẫu: 2.1. Vấn đề: Trong thực tế, khi tiến hành nghiên cứu ta có gặp một số trở ngại nên có thể không nghiên cứu toàn bộ được mà phải tiến hành chọn mẫu vì : Tốn kém quá nhiều nguồn lực về thời gian, tiền bạc, công sức...ví dụ muốn điều tra sức khoẻ nhân dân toàn quốc ta phải sử dụng nhiều cán bộ y tế tham gia, chi phí nhiều cho các phương tiền điều tra, người dân phải tốn nhiều thời gian để đến khám bệnh. Có nhiều trường hợp khi điều tra sẽ phá huỷ tất cả các phần tử được điều tra như sau khi kiểm tra chất lượng của một loại thuốc tiêm ta phải bỏ tất cả các ống thuốc này là đều không chấp nhận được về mặt kinh tế. Có những trường hợp ta khó xác định được toàn bộ N phần tử của quần thể như số người hiện mắc HIV/AIDS, số người nghiện ma tuý...nên khó tiến hành điều tra toàn bộ quần thể. 2.2. Khái niệm về mẫu: Từ N phần tử của quần thể nghiên cứu ta lấy ra n phần tử để quan sát các tiêu thức X cần nghiên cứu, n phần tử này lập nên một mẫu (sample) được gọi là kích thước mẫu, thông thường kích thước mẫu nhỏ hơn kích thước của quần thể. Để chọn mẫu có tính đại diện cho quần thể thì khi lấy mẫu phải bảo đảm tính ngẫu nhiên, không chọn mẫu theo một ý chủ quan nào cả. 2.3. Quần thể nghiên cứu và quần thể đích: 2.3.1. Quần thể nghiên cứu (study population) : Quần thể mà từ đó mẫu được rút ra để tiến hành nghiên cứu. 2.3.2. Quần thể đích (target population): Mục đích của người nghiên cứu là muốn khái quát hoá vấn đề đã nghiên cứu ra một quần thể lớn hơn gọi là quần thể đích. Thông thường quần thể nghiên cứu và quần thể đích là trùng nhau nhưng cũng có khi do thiếu nguồn lực, thiếu thông tin về chọn mẫu nên 2 quần thể này có khác nhau. Ví dụ: Khi nghiên cứu về việc thực hiện biện pháp tránh thai ở một huyện thì phụ nữ trong độ tuổi sinh đẻ của 10 xã trong huyện là quần thể đích nhưng vì không có đủ hồ sơ các phụ nữ này nên ta chỉ chọn mẫu từ số các phụ nữ của 5 xã mà thôi. Như vậy phụ nữ trong độ tuổi sinh đẻ của 5 xã này là quần thể nghiên cứu. 2.3.3. Đơn vị quan sát (observation unit) và đơn vị mẫu (sampling unit): đơn vị quan sát là nơi mà người điều tra cần tiếp xúc để tiến hành thu thập số liệu nghiên cứu còn đơn vị mẫu là đối tượng được dùng trong khi chọn mẫu. Thông thường hai đơn vị này là một nhưng cũng có khi là khác nhau. Ví dụ: Trong điều tra tìm hiểu tình trạng ốm đau và việc sử dụng dịch vụ y tế xã, do không có đủ danh sách các bệnh nhân đã đến khám tại trạm y tế nên ta phải dùng danh sách các hộ gia đình để chọn mẫu. Tất cả những người bị ốm trong thời gian qua của các hộ được chọn vào mẫu đều được phỏng vấn. Như vậy đơn vị quan sát là người đã bị ốm còn đơn vị mẫu là hộ gia đình. 3. Các phương pháp chọn mẫu: 3.1. Kỹ thuật chọn mẫu xác suất: Mỗi cá thể trong quần thể có một cơ hội biết trước để chọn vào mẫu. Kỹ thuật này chỉ thực hiện được khi biết khung chọn mẫu của quần thể nghiên cứu. 3.1.1.Chọn mẫu ngẫu nhiên đơn (simple random sampling): Mẫu ngẫu nhiên đơn là mẫu mà tất cả các cá thể trong quần thể có cùng cơ hội để được chọn vào mẫu. * Ví dụ: Chọn 100 bà mẹ trong độ tuổi sinh đẻ trong số 1000 bà mẹ cùng độ tuổi ở vùng X trong năm 2009 để tìm hiểu kiến thức về biện pháp tránh thai. Khi sử dụng cách chọn mẫu ngẫu nhiên đơn thì mỗi bà mẹ có xác suất là 10% được chọn vào mẫu. * Các bước: - Lập một khung chọn mẫu chứa đựng tất cả các đơn vị mẫu : lập danh sách các phần tử, đánh số thứ tự các phần tử 1 đến N. - Sử dụng một quá trình ngẫu nhiên để chọn các cá thể vào mẫu: chọn một mẫu ngẫu nhiên đơn từ quần thể như tung súc sắc, bốc thăm, sử dụng bảng số ngẫu nhiên...để chọn cho đủ n mẫu cần nghiên cứu. * Ưu điểm: - Cách làm đơn giản, tính ngẫu nhiên và tính đại diện cao - Là kỹ thuật chọn mẫu xác suất cơ bản và có thể được lồng ghép vào các kỹ thuật chọn mẫu xác suất khác. * Hạn chế: - Cần danh sách của các đơn vị nghiên cứu để phục vụ cho chọn mẫu. Điều này có thể không phải luôn thỏa mãn khi mẫu lớn hoặc mẫu dao động. - Việc thu thập số liệu sẽ tốn kém và mất thời gian vì cá thể được chọn vào mẫu có thể phân bố tản mạn trong cộng đồng. 3.1.2.Chọn mẫu hệ thống (systematic samplling): các phần tử của quần thể được đưa vào mẫu cách nhau một khoảng hằng định. Các bước tiến hành như sau: 1./ Lập danh sách các phần tử, đánh số thứ tự các phần tử 1 đến N 2./ Lập khoảng cách k = N/n (n là cỡ mẫu định chọn, N là quần thể nghiên cứu) 3./ Chọn ngẫu nhiên 1 số có giá trị t sao cho 1 £ t £ k 4./ Các phần tử có giá trị t + 1k, t + 2k, t + 3k...được chọn vào mẫu cho đến khi đủ số n cần chọn. *Ưu điểm: Đơn giản và dễ áp dụng· Nếu danh sách cá thể của quần thể được sắp xếp ngẫu nhiên, chọn mẫu hệ thống có giá trị tương tự như chọn ngẫu nhiên đơn.· Nếu danh sách cá thể được xếp theo tầng thì tầng nào có cỡ lớn hơn sẽ có nhiều cá thể được chọn vào mẫu hơn. * Nhược điểm: Khi việc sắp xếp khung mẫu tình cờ trùng với khoảng chọn mẫu hệ thống thì các cá thể được chọn có thể thiếu tính đại diện. 3.1.3. Chọn mẫu ngẫu nhiên phân tầng (stratified random sampling): chia quần thể thành các nhóm riêng biệt theo một tiêu thức nào đó được gọi là tầng, sao cho tính chất nghiên cứu các phần tử trong mỗi tầng được đồng đều hơn. Sau đó áp dụng chọn mẫu ngẫu nhiên đơn cho mỗi tầng để tìm số cá thể cần nghiên cứu. * Các bước tiến hành: Phân chia quần thể nghiên cứu thành các tầng khác nhau dựa vào một hay một số đặc điểm như nhóm tuổi, giới, nghề nghiệp, thu nhập, dân tộc... Chú ý là giữa các tầng không có sự chồng chéo các đối tượng nghiên cứu.· Thực hiện việc chọn mẫu ngẫu nhiên đơn trong mỗi tầng.· Các phân tích thống kê được tính toán riêng cho mỗi tầng sau đó sẽ kết hợp lại dựa trên cơ sở kích cỡ của từng tầng để suy ra kết quả của toàn bộ quần thể.· * Ưu điểm: Mỗi tầng có một sự đồng nhất về yếu tố được chọn để phân tầng nên sẽ giảm sự chênh lệch giữa các cá thể nghiên cứu, tính đại diện và khái quát hoá cao cho tầng đó.· Dễ tìm kiếm đối tượng nghiên cứu hơn cách chọn mẫu ngẫu nhiên đơn.· Tầng có kích cỡ lớn hơn sẽ có nhiều cá thể có cơ hội được chọn vào mẫu hơn. * Nhược điểm: Việc đòi hỏi tất cả các cá thể trong mỗi tầng phải được liệt kê theo danh sách và được gắn số ngẫu nhiên để chọn nguẫ nhiên có khi khó thực hiện trong thực tế ở một số cộng đồng. 3.1.4. Chọn mẫu theo chùm (cluster sampling): chùm là một cộng đồng có một số đặc điểm giống nhau và toàn bộ quần thể được chia thành các chùm. Ta tiến hành chọn ngẫu nhiên các chùm và trong mỗi chùm lại chọn ngẫu nhiên phần tử để đưa vào nghiên cứu. Trong trường hợp này đơn vị mẫu là các chùm chứ không phải là các cá thể. * Các bước tiến hành: Xác định các chùm thích hợp: người nghiên cứu cần xác định· các chùm thích hợp cho mục đích nghiên cứu. Chùm được tập hợp các cá thể sống gần nhau (làng, xã, trường học, bệnh viện...) do đó thường có chung một số đặc điểm. Các chùm thường có kích cỡ khác nhau. Lập danh sách tất cả các chùm và chọn một cách xác suất một số chùm vào mẫu.· Tùy theo ý tưởng của người nghiên cứu mà có 2 cách chọn khác nhau tiếp theo: Cách 1: Tất cả các cá thể trong các chùm đã chọn sẽ được đưa vào nghiên cứu. Trong cách này đơn vị mẫu chính là các chùm được chọn, trong khi yếu tố quan sát lại là các cá thể trong chùm (các hộ gia đình trong làng được chọn để quan sát, số phụ nữ trong các hộ gia đình được chọn để phỏng vấn...). Đây là cách chọn mẫu chùm một bậc. Cách 2: Lập danh sách các cá thể trong các chùm được chọn, sau đó áp dụng cách chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi chùm để chọn các cá thể vào mẫu nghiên cứu. Trong trường hợp này, đơn vị mẫu và đơn vị quan sát là trùng nhau, đây là cách chọn mẫu chùm hai bậc. * Ưu điểm: Thường được áp dụng trong các nghiên cứu với qui mô lớn, các đối tượng nghiên cứu có độ phân tán cao, không có danh sách của tất cả các cá thể trong quần thể mà chỉ có danh sách hay bản đồ các chùm .· Do đối tượng nghiên cứu trong mỗi chùm thường sống gần nhau nên chi phí đi lại nghiên cứu sẽ ít hơn. * Nhược điểm: Tính đại diện cho quần thể theo phương pháp mẫu chùm thường thấp hơn so với mẫu được chọn bằng phương pháp ngẫu nhiên đơn.· Khắc phục điểm yếu này, ta thường tăng cỡ mẫu bằng cách nhân cỡ mẫu đã tính trong công thức chọn mẫu ngẫu nhiên đơn với hệ số ảnh hưởng của thiết kế (design effect). Thông thường, để đơn giản hóa, ta hay cho hệ số này là 2. Cỡ chùm càng nhỏ thí tính đại diện càng cao nhưng chi phí điều tra sẽ nhiều hơn. Số chùm được chọn vào nghiên cứu tốt nhất là ≥ 30.· Phân tích số liệu từ mẫu chùm thường phức tạp hơn các cách chọn mẫu khác nếu số chùm· < 30. 3.1.5. Chọn mẫu chùm theo phương pháp PPS (probability proportionate to size - xác suất tỷ lệ với cỡ của cộng đồng): Đây là phương pháp thường được áp dụng trong nghiên cứu cộng đồng khi quần thể nghiên cứu có qui mô rất lớn và các cộng đồng có kích thước khác nhau. Trong cách chọn mẫu này, chùm được định nghĩa là một nhóm dân cư được lựa chọn ngẫu nhiên mà trong đó chứa một số lượng nhất định số mẫu cần nghiên cứu. Để thuận lợi khi thực hiện các tính toán thống kê, ta nên lập kế hoạch nghiên cứu từ 30 chùm trở lên. Khi áp dụng phương pháp PPS, các cá thể của cộng đồng có cơ hội tham gia vào mẫu theo tỷ lệ với kích cỡ của cộng đồng đó. Ta tiến hành liệt kê tất cả các cộng đồng trong địa bàn nghiên cứu và dân số của các vùng đó, sau đó áp dụng phương pháp chọn mẫu PPS để chọn ra các cộng đồng chứa các chùm nghiên cứu. Thông thường do hạn chế nguồn lực ta thường chọn cộng đồng theo nhiều giai đoạn. Ví dụ, trong một tỉnh ta dùng phương pháp PPS để chọn ra một số huyện, sau đó chọn tối thiểu 30 chùm từ các huyện đã chọn. Cách làm này sẽ giúp giảm bớt chi phí đi lại và thời gian mà vẫn bảo đảm tính đại diện cho quần thể nghiên cứu. 3.2. Kỹ thuật chọn mẫu không xác suất: Việc chọn một số đơn vị vào mẫu nghiên cứu mà không theo quy tắc chọn mẫu. 3.2.1.Chọn mẫu thuận tiện (convenient sampling): số cá thể đưa vào mẫu nghiên cứu theo nguyên tắc "sẵn có", phương pháp này hay gặp trong các nghiên cứu lâm sàng. Ví dụ ta quyết định chia ngẫu nhiên bệnh nhân làm hai lô: Số bệnh nhân đến khám vào ngày chẵn sẽ điều trị theo phác đồ mới còn bệnh nhân đến khám vào ngày lẻ sẽ được điều trị theo phác đồ cũ để so sánh hiệu quả 2 phác đồ điều trị. 3.2.2.Chọn mẫu có mục đích (purposive sampling): Người nghiên cứu đã xác định trước các nhóm quan trọng liên quan đến vấn đề nghiên cứu để thu thập số liệu, mỗi nhóm có số lượng mẫu tham gia nghiên cứu khác nhau. Người ta hay dùng cách chọn mẫu này trong các điều tra thăm dò, phỏng vấn sâu. Ví dụ: Để tìm hiểu hành vi bảo vệ sức khoẻ của các nhân viên nhà hàng, khách sạn, quầy bar – karaoke thì số nhân viên phục vụ ở các quầy bar – karaoke là đáng quan tâm hơn nên có tỷ lệ mẫu lớn hơn nhóm ở khách sạn và cuối cùng là nhóm ở nhà hàng. 3.2.3.Mẫu chỉ tiêu (quota sampling): Yêu cầu của loại chọn mẫu này là cần bảo đảm một số lượng nhất định các đơn vị mẫu của các loại khác nhau trong quần thể phải có mặt trong mẫu. Người nghiên cứu đặt kế hoạch là sẽ chọn bao nhiêu đối tượng cho mỗi tầng và bằng cách chọn mẫu thuận tiện để chọn cho đủ số lượng này từ mỗi tầng. Ví dụ: Khi nghiên cứu tình hình bỏ trị lao, người nghiên cứu giả định rằng nghề nghiệp của bệnh nhân có thể liên quan chặt chẽ đến việc bỏ trị. Do vậy người nghiên cứu cố gắng điều tra ở những người làm các nghề khác nhau và ngay cả nghề chài lưới là rất ít gặp trong vùng, nên người nghiên cứu quyết định mỗi nghề phải có tối thiểu 30 người được điều tra. 3.2.4. Một số ứng dụng của các phương pháp chọn mẫu không xác suất Các cách chọn mẫu không xác suất thường dễ tiến hành và ít tốn kém nhưng do tính đại diện cho quần thể nghiên cứu không cao nên thường chưa đủ cơ sở khoa học cho việc ngoại suy ra cả quần thể, vì vậy cần thận trọng khi kết luận. Trong một số thử nghiệm lâm sàng (ví dụ thử nghiệm một loại thuốc mới), mẫu nghiên cứu thường phải bao gồm những người tình nguyện, khi đó cách chọn mẫu không xác suất sẽ được áp dụng. Trong nghiên cứu định tính, với mục đích thăm dò hoặc muốn tìm hiểu sâu một vấn đề nào đó của quần thể thì việc chọn mẫu xác suất có thể không cần thiết nên ta có thể áp dụng cách chọn mẫu không xác suất. 4. Công thức tính cỡ mẫu: 4.1. Cỡ mẫu cho việc ước tính một tỷ lệ trong quần thể n : Số mẫu tối thiểu cần tìm p : Tỷ lệ hiện mắc của một bệnh nào đó trong cộng đồng p có thể biết được nhờ vào NC thử hay kết quả của một NC tương tự trước đó. Trong trường hợp không có thông tin về p ta có thể giả sử p = 0,5. Khi đó tích số p(1− p) sẽ lớn nhất và ta phải tiến hành với cỡ mẫu lớn nhất. d : Khoảng sai chệch mà người nghiên cứu mong muốn giữa tỷ lệ p thu được từ mẫu và tỷ lệ của quần thể P. a : Mức ý nghĩa thống kê do người nghiên cứu quy định : Giá trị nhận được từ bảng Z tương ứng với a đã chọn a 0,05 0,01 0,001 (1,96)2 = 3,84 (2,58)2 = 6,66 (3,29)2 = 10,82 4.2.Cỡ mẫu khi ước tính một trung bình của quần thể: n: Số mẫu tối thiểu cần tìm S: Độ lệch chuẩn của mẫu S có thể biết được nhờ vào NC thử hay kết quả của một NC tương tự trước đó. d: Khoảng sai chệch mà người NC mong muốn giữa trung bình thu được từ mẫu và trung bình của quần thể. a: Mức ý nghĩa thống kê do người nghiên cứu quy định Giá trị nhận được từ bảng Z tương ứng với a đã chọn (ở trên) 4.3. Cỡ mẫu khi kiểm định sự khác nhau của 2 tỷ lệ: n: Số mẫu tối hiểu cần tìm p1: Tỷ lệ hiện mắc của bệnh X ở vùng A p2: Tỷ lệ hiện mắc của bệnh X ở vùng B p1 và p2 có thể biết được nhờ vào nghiên cứu thử hay kết quả của một NC tương tự trước đó. a: Mức ý nghĩa thống kê là xác suất gặp phải sai lầm loại 1, tức là sai lầm khi loại bỏ Ho mà Ho lại đúng. a cũng thường được xác định 0,05; 0,01; 0,001 với độ tin cậy tương ứng là 95%, 99% và 99,99% b: Xác suất gặp phải sai lầm loại 2 tức là sai lầm khi chấp nhận H0 mà nó sai). b thường được xác định là 0,1 Z2(a,b): Giá trị nhận được từ bảng khi có giá trị của a và b 4.4.Cỡ mẫu khi kiểm định sự khác nhau của 2 trung bình: n: Số mẫu tối thiểu cần tìm S: Độ lệch chuẩn của mẫu, S có thể biết được nhờ vào nghiên cứu thử hay kết quả của một nghiên cứu tương tự trước đó. d: Khoảng sai chệch mà người nghiên cứu mong muốn giữa trung bình thu được từ mẫu và trung bình của quần thể. a: Mức ý nghĩa thống kê là xác suất gặp phải sai lầm loại 1, tức là sai lầm khi loại bỏ Ho mà Ho lại đúng. a cũng thường được xác định: 0,1; 0,05; 0,01; 0,001 với độ tin cậy tương ứng là 90%, 95%, 99% và 99,99%. : b Xác suất gặp phải sai lầm loại 2 tức là sai lầm khi chấp nhận Ho mà Ho lại sai b thường được xác định là 0,1 Z2(a,b) : Giá trị nhận được từ bảng khi biết giá trị của a và b Giá trị củaa Giá trị của b 0,05 0,1 0,2 0,5 0,1 10,8 8,6 6,2 2,7 0,05 13,0 10,5 7,9 3,8 0,02 15,8 13,0 10,0 5,4 0,01 17,8 14,9 11,7 6,6 4.5. Công thức tính cỡ mẫu cho nghiên cứu bệnh - chứng(Case - Control study). Trong đó: p1: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm bệnh p0: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm chứng (giá trị p1 và p0 có thể lấy từ kết quả các nghiên cứu trước đó hoặc nghiên cứu thử) : e Mức độ chính xác mong muốn (chênh lệch cho phép giữa tỷ suất chênh OR thực của quần thể và OR thu được từ mẫu) Chú ý: Trong trường hợp cho biết một trong hai giá trị p1hoặc p0 và OR ta có thể tính giá trị chưa biết bằng công thức: 4.6. Công thức tính cỡ mẫu cho nghiên cứu thuần tập(Cohort study) Trong đó: p1: Tỷ lệ các cá thể mắc bệnh được ước lượng trong nhóm tiếp xúc với yếu tố nguy cơ p0: Tỷ lệ các cá thể mắc bệnh được ước lượng cho nhóm không tiếp xúc với yếu tố nguy cơ . Hai tỷ lệ p1 và p0 có thể được lấy từ kết quả của các nghiên cứu trước đó hoặc kết quả thu được từ nghiên cứu thử. :e Mức độ chính xác mong muốn (chênh lệch cho phép giữa nguy cơ tương đối (RR) thực của quần thể và RR thu được từ mẫu)RR thu được từ mẫu). Chú ý: Trong trường hợp cho biết một trong hai giá trị p1hoặc p0 và RR ta có thể tính giá trị chưa biết bằng công thức: 4.7. Lưu ý khi tính cỡ mẫu: Cỡ mẫu thay đổi tùy theo mỗi loại thiết kế nghiên cứu: nghiên cứu dọc thường yêu cầu cỡ mẫu cao hơn loại nghiên cứu ngang, thiết kế mẫu chùm thường có cỡ mẫu lớn hơn thiết kế mẫu khác.· Sự kiện nghiên cứu càng hiếm thì cỡ mẫu càng phải cao.· Mức độ sai lệch cho phép giữa tham số mẫu và tham số quần thể càng nhỏ thì cỡ mẫu càng lớn.· Nếu muốn khảo sát nhiều biến số trong cùng một nghiên cứu thì cỡ mẫu phải được xác định riêng với từng biến sau đó lựa chọn cỡ mẫu lớn nhất.· Trong các nghiên cứu thăm dò, cỡ mẫu nhiều khi không phải là vấn đề quan trọng vì quá trình ngoại suy tham số mẫu là không cần thiết.· Bài tập: Một vùng X có dân cư ở rải rác nên y tế địa phương khó biết rõ tình hình sử dụng nước sạch của họ. Hãy chọn phương pháp chọn mẫu hợp lý nhất để điều tra tỷ lệ sử dụng nước sạch của các hộ gia đình vùng X. Giải thích lý do sử dụng cách chọn mẫu này. Hãy tính cỡ mẫu tối thiểu cần có để tiến hành điều tra tỷ lệ hộ gia đình vùng X có đủ nước sạch dùng trong cả năm, biết rằng với mức ý nghĩa ; người nghiên cứu muốn độ sai chệch giữa tỷ lệ nghiên cứu được so với thực tế là 5%. ƯỚC LƯỢNG THỐNG KÊ SO SÁNH CÁC THÔNG TIN MỤC TIÊU 1 .Vận dụng công thức tính ước lượng khoảng để ước lượng trung bình và tỉ lệ quần thể từ kết quả của mẫu nghiên cứu. 2. Lý giải được ý nghĩa của khoảng tin cậy thu được trong nghiên cứu các vấn đề sức khỏe cộng đồng. NỘI DUNG 1. KHÁI NIỆM: 1.1. Đặt vấn đề: Khi nghiên cứu tình hình sức khoẻ của một quần thể muốn đánh giá chính xác ngay các tham số nhưng điều này khó thực hiện vì ta không đủ điều kiện về nguồn lực và số liệu vì vậy ta thường ước đoán các tham số này nằm trong một khoảng nào đó mà thôi. Đó là việc giải quyết bài toán ước lượng khoảng tin cậy. 1.2. Định nghĩa: Giả sử quần thể có đặc trưng chưa biết, căn cứ vào mẫu gồm n quan sát độc lập sẽ tìm 2 số 1 (X1,X2,...,Xn) và 2 (X1,X2,...,Xn) sao cho khoảng (1, 2) chứa giá trị chưa viết với xác suất lớn, nghĩa là: P{1 2} = -1- ( thường có giá trị 0,001; 0,01; 0,05) - Khoảng (1, 2) được gọi là khoảng tin cậy của - 1 -- được gọi là độ tin cậy của khoảng tin cậy đó - 1 được gọi là giới hạn tin cậy dưới - 2 được gọi là giới hạn tin cậy trên Chú ý: Với cỡ mẫu n cố định thì độ tin cậy và độ chính xác thường đối lập nhau nên trong thực tế tuỳ theo yêu cầu nghiên cứu mà chọn ưu tiên độ chính xác hay độ tin cậy cao hoặc phải dung hoà cả hai chỉ tiêu. 2. ƯỚC LƯỢNG TRUNG BÌNH VÀ TỶ LỆ QUẦN THỂ: 3.3.1. Ước lượng kì vọng của phân phối chuẩn khi biết phương sai . Các bước cần làm để ước lượng : + Chọn mẫu dung lượng n, tính trung bình cộng . Chọn mức tin cậy P . ( = 1 – P gọi là mức sai cho phép hay mức ý nghĩa ). + Dùng bảng tính giá trị tới hạn , tức là giá trị u sao cho + Ước lượng theo bất đẳng thức kép: Ví dụ 5. Cân 36 con gà được trọng lương bình = 2,6 kg. Hãy ước lượng kì vọng nếu trọng lượng gà phân phối chuẩn N(,0,09). Biết rằng u(0,025) = 1,96; u(0,005) = 2,575. Ở mức tin cậy P = 0,95 ta có u(0,025) = 1,96; = 0,3 Ở mức tin cậy P = 0,99; ta có u(0,005) = 2,575 Ta có . Ví dụ 6. Phân tích vitamin C của 17 mẫu được = 20 mg. Ước lượng kì vọng nếu lượng vitamin phân phối chuẩn N(,2) với = 3,98 mg ở mức tin cậy P = 0,95; u(0,025) = 1,96 3.3.2. Ước lượng xác suất p của phân phối nhị thức. Lấy mẫu dung lượng n, đếm số cá thể loại A gọi là tần số m tính tần suất Dùng bảng tính giá trị tới hạn sau đó ước lượng p theo bất đẳng thức kép: Ví dụ 7. Trồng 100 cây có 75 cây sống, ước lượng xác suất sống p khi trồng cây với P = 0,95. Ví dụ 8. Để biết tỉ lệ người tiêu dùng không thích một loại sản phẩm mới đưa ra thị trường người ta hỏi ý kiến 344 người và có 83 người cho biết không thích sản phẩm đó Ta chọn mức độ tin cậy P = 0,9 và biết rằng u(0,05)=1,645 Bài tập: 1. Theo dõi trọng lượng của 25 trẻ mới sinh ở vùng X, ta có kết quả: `X = 2550 gam, s2 = 10000 Giả sử trọng lượng của trẻ mới sinh là đại lượng ngẫu nhiên có phân phối chuẩn, hãy ước lượng trung bình m trọng lượng của trẻ mới sinh với độ tin cậy 99%? 2. Điều tra ngẫu nhiên 120 hộ gia đình ở huyện X thấy có 36 hộ nghèo. Tìm khoảng ước lượng 95% dành cho tỷ lệ hộ nghèo của huyện X ?

Các file đính kèm theo tài liệu này:

BAI GANG THONG KE Y HOC.doc
thong_ke_y_hoc.rar