Bài giảng Phương pháp nghiên cứu kinh tế - Chương 3: Thu thập và xử lý số liệu - Phạm Lê Thông
XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU
i. Phân tích thống kê mô tả
Độ tập trung: mean, mode, median.
Độ phân tán:phương sai, độ lệch chuẩn, dãy biến động, hệ số biến động.
ii. Phân tích tần số: đếm tần số xuất hiện, đồ thị phân phối tần số.
iii. Phân tích phương sai: một chiều, nhiều chiều
iv. Phân tích hồi quy tương quan,
35 trang |
Chia sẻ: linhmy2pp | Ngày: 12/03/2022 | Lượt xem: 317 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Phương pháp nghiên cứu kinh tế - Chương 3: Thu thập và xử lý số liệu - Phạm Lê Thông, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Thu thập và xử lý
Số liệu
Chương
Giảng viên:
Phạm Lê Thông
1
Số liệu sơ cấp và số liệu thứ cấp
Số liệu sơ cấp : Những số liệu được quan sát hay thu thập lần đầu tiên bởi nhà nghiên cứu. Số liệu dạng này thường các nhà nghiên cứu tự thu thập từ: bản câu hỏi, phỏng vấn, quan sát, nghiên cứu tình huống,
Số liệu thứ cấp: Những số liệu đã được công bố hay thu thập trong quá khứ hay do một nhóm thứ ba thu thập. Số liệu này thường được thu thập từ các cơ quan có liên quan, các nghiên cứu trước đó, cơ quan thống kê của chính phủ, Internet,
Nhà nghiên cứu cần tìm kiếm kỹ lưỡng các nguồn số liệu thứ cấp trước khi quyết định sử dụng số liệu sơ cấp do chi phí thấp hơn.
S ố liệu thứ cấp thường được thu th ập theo mục đích của người khác nên đôi khi không phù hợp với mục tiêu đang nghiên cứu.
C ác loại số liệu
2
Số liệu chuổi thời gian, cắt ngang, và hỗn hợp
Số liệu chuổi thời gian (Time-series data): Số liệu chuổi thời gian là một tập hợp của những quan sát về những giá trị mà một biến số nhận được tại những thời điểm khác nhau . Số liệu này có thể được thu thập hàng ngày, tuần, tháng, quý, năm, 5 năm, .
Số liệu chuổi thời gian thường được sử dụng trong phân tích kinh tế vĩ mô để thấy được xu hướng phát triển của nền kinh tế
3
Tốc độ tăng trưởng và lạm phát của Việt Nam 1989-2007
Năm
Tốc độ tăng trưởng (%)
Tỷ lệ lạm phát (%)
1999
4,77
2000
6,79
-1,6
2001
6,89
2002
7,08
2003
7,34
3,2
2004
7,79
7,7
2005
8,44
8,3
2006
8,23
7,5
2007
8,48
8,3
4
Số liệu cắt ngang (Cross section data)
Là số liệu về một hay nhiều biến số được thu thập tại cùng một thời điểm
Ví dụ: như tổng điều tra dân số được Cục Tổng điều tra thực hiện mỗi 5 năm, Điều tra về chi tiêu tiêu dùng (VHLSS)
Loại số liệu này thường có tính không đồng nhất: giá trị của các biến số biến động rất lớn giữa các quan sát
5
Sản lượng trứng của các tiểu bang Hoa Kỳ
6
Số liệu hỗn hợp (Panel data)
là số liệu được kết hợp bởi cả số liệu chuổi thời gian và cắt ngang: cùng một đơn vị cắt ngang (chẳng hạn, một gia đình hay một công ty) được quan sát theo thời gian.
7
Ví dụ về số liệu hỗn hợp
8
Các phương pháp chọn mẫu
Chọn mẫu phi xác suất: Chọn mẫu theo ý định chủ quan của người NC.
Chọn mẫu xác suất: Dựa vào lý thuyết xác suất để lấy mẫu ngẫu nhiên
9
Các phương pháp chọn mẫu phi xác suất
Chọn mẫu thuận tiện
Chọn mẫu phán đoán
Chọn mẫu chỉ định
Chọn mẫu theo mạng quan hệ
10
Chọn mẫu thuận tiện
Các đơn vị mẫu được chọn ở tại một địa điểm và vào một thời gian nhất định
Vd: chọn mẫu những người đi mua sắm ở Metro CT và tiếp cận họ khi họ bước vào sthị hoặc khi họ mua sắm món hàng mà ta muốn khảo sát.
Ưu điểm: dễ dàng tập hợp các đơn vị mẫu
Nhược điểm: không đạt được độ xác thực cao
Dựa trên tính “dễ tiếp xúc” và “cơ hội thuận tiện” để chọn mẫu
Chỉ dùng cho nghiên cứu thăm dò, trắc nghiệm, không dùng cho nghiên cứu mô tả hay nhân quả vì tính đại diện không cao
11
Chọn mẫu phán đoán
Các đơn vị mẫu được chọn dựa vào sự phán đoán của người nghiên cứu mà họ nghĩ rằng những mẫu này có thể đại diện cho tổng thể
Vd: Chọn mẫu một số ít liên doanh lớn có thể chiếm phần lớn tổng sản lượng ngành công nghiệp cả nước.
Cách chọn mẫu này được dùng phổ biến khi nghiên cứu định tính
Ưu điểm: chọn đúng phần tử rất quan trọng của tổng thể
Nhược điểm: có khả năng phát sinh những sai lệch lớn
12
Chọn mẫu chỉ định
Là chọn mẫu theo tỷ lệ gần đúng của các nhóm đại diện trong tổng thể hoặc theo số mẫu được chỉ định cho mỗi nhóm
Ví dụ: Chọn 100 phần tử cho mỗi nhãn hiệu nước giải khát để so sánh kết quả thống kê về thái độ khách hàng. Hoặc tổng thể NC bao gồm 1.000 c.ty, trong đó 600 c.ty vừa và nhỏ, 300 trung bình và 100 qui mô lớn. Số mẫu chỉ định là 10% trên tổng thể, ta sẽ chọn 60 c.ty vừa và nhỏ, 30 trung bình và 10 c.ty lớn
Tổng thể quá lớn, sự khác biệt (biến động) giữa các phần tử không lớn
Tổng thể đã được phân tổ nhóm trước (đồng nhất) PVV chỉ cần chọn cho đủ số lượng không cần ngẫu nhiên
Vd: ý thức tham gia giao thông của SV ĐHCT (có thể chọn bất kỳ sinh viên nam nữ nào vì trong trường hợp này thì giới tính không có sự khác biệt lớn)
Ưu điểm: đảm bảo được số mẫu cần thiết cho từng nhóm trong tổng thể phục vụ khách hàng
Nhược điểm: có thể cho kết quả sai lệch
13
Chọn mẫu theo mạng quan hệ
người nghiên cứu sẽ thông qua người trả lời đầu tiên để tiếp cận những người trả lời kế tiếp
A
C
E
D
B
F
14
Chọn mẫu theo mạng quan hệ
Các mẫu đầu tiên được chọn theo phương pháp xác suất
Các mẫu tiếp theo được chọn ra từ việc cung cấp thông tin qua hình thức nhờ giới thiệu
Áp dụng cho các nội dung NC khá đặc biệt, không phổ biến
Ưu điểm: Giúp cho người NC chọn được các mẫu mà họ cần NC.
15
Chọn mẫu xác suất
Dựa vào lý thuyết xác suất để lấy mẫu ngẫu nhiên
Một số cách chọn mẫu xác suất
Chọn mẫu ngẫu nhiên đơn giản
Chọn mẫu có hệ thống
Chọn mẫu ngẫu nhiên phân tầng
16
Chọn mẫu ngẫu nhiên đơn giản
Là cách chọn mẫu mà mỗi phần tử trong tổng thể có cùng cơ hội được chọn với xác suất như nhau. Để chọn được mẫu, người NC phải có danh sách tổng thể NC
Vd: Chọn ngẫu nhiên 100 mẫu sinh viên trong tổng số 4.000 sinh viên Khoa Kinh Tế & QTKD.
17
Chọn mẫu có hệ thống
Chọn ngẫu nhiên mẫu đầu tiên.
Sau đó dùng bước nhảy (lặp đi lặp lại)
Áp dụng tốt nếu danh sách tổng thể được xếp ngẫu nhiên (giảm sai lệch do tuần hoàn bước nhảy)
Vd: PV các hộ gia đình vùng nông thôn
18
Chọn mẫu ngẫu nhiên phân tầng
Là phân chia các đối tượng nghiên cứu thành các nhóm, tầng theo các đặc tính, sau đó lấy mẫu theo tầng, nhóm.
Chia tổng thể ra từng nhóm nhỏ theo 1 tiêu thức nào đó gọi là tiêu thức phân tầng (thu nhập, giới tính, tuổi tác, TĐHV, nhân khẩu,).
Chọn ngẫu nhiên hay hệ thống trong từng nhóm phân tầng theo tỷ lệ với nhóm.
Ưu điểm: Phổ biến nhất vì tính chính xác và đại diện cao.
Quan trọng là chọn tiêu thức phân tầng phù hợp
19
SO SÁNH CHỌN MẪU XÁC SUẤT VÀ PHI XÁC SUẤT
Xác suất
Phi xác suât
Ưu điểm
Tính đại diện cao .
Khái quát hóa cho tổng thể .
Tiết kiệm thời gian và chi phí .
Nhược điểm
Tốn kém thời gian và chi phí .
Tính đại diện thấp .
Phạm vi sử dụng
Nghiên cứu mô tả , nhân quả và khám phá .
Nghiên cứu thăm dò , thử nghiệm .
20
Thiết kế bảng câu hỏi
1 MỤC TIÊU
Giúp đáp viên hiểu đúng nội dung câu hỏi.
Động viên, tranh thủ sự cộng tác.
Hướng dẫn cách trả lời.
Tối thiểu các sai sót có thể xảy ra khi đáp viên trả lời.
21
2 Nội dung BCH
Phần giới thiệu
Giới thiệu bản thân phỏng vấn viên.
Giới thiệu lý do, mục đích nghiên cứu.
Khoảng thời gian cần thiết để hoàn thành.
Phần sàng lọc
Chọn đúng đối tượng để thu dữ liệu.
Thường dùng BCH phân đôi.
Phần nội dung chính
Đa số câu hỏi liên quan đến nội dung NC.
Phần quản lý: xác nhận, lời cam đoan, mẫu số.
22
Ví dụ
Phần giới thiệu
Xin chào, tôi là thuộc nhóm nghiên cứu . Chúng tôi đang thực hiện đề tài. Anh (chị) vui lòng dành chút thời gian khoảng để giúp chúng tôi trả lời một số câu hỏi dưới đây.
Chúng tôi rất hoan nghênh sự cộng tác và giúp đỡ của anh (chị). Các ý kiến trả lời của anh (chị) sẽ được đảm bảo giữ bí mật tuyệt đối.
23
Phần quản lý
Nghiên cứu số
Vùng, địa phương
Bảng câu hỏi
Phỏng vấn viên
Phỏng vấn lúc
Thời gian phỏng vấn
Giám sát viên
Kết luận của GSV
Kiểm tra viên
Kết quả kiểm tra
Tên người trả lời
Địa chỉ
Điện thoại
24
Những việc cần làm khi thiết kế BCH
1 Xác định thông tin cần thiết
Dự án nghiên cứu
Bảng câu hỏi
Nhóm người trả lời
Danh mục các thông tin cần có
Các câu hỏi cần được chi tiết
Các dữ liệu cần thu thập
Vd: năng suất lúa
Sản lượng từng vụ
Diện tích từng vụ
Sản lượng đã thu hoạch
Diện tích gieo trồng
25
2. Xác định hình thức phỏng vấn
Thư tín: tiện lợi, chi phí thấp nhưng tỷ lệ trả lời thấp, khó xác định độ tin cậy của thông tin được thu thập.
Điện thoại: tốn kém, chỉ áp dụng khi thu thập ít thông tin và thời gian phỏng vấn ngắn; thông tin tương đối tin cậy
Trực tiếp: thông tin tin cậy, tỷ lệ trả lời cao nhưng tốn kém
26
3 Lựa chọn cấu trúc câu hỏi
Câu hỏi mở:
Phần trả lời không định trước, đáp viên tự trả lời theo suy nghĩ.
Khai thác ý kiến mới.
Tạo quan hệ mật thiết khi trả lời.
Khó tập hợp, mã hóa, phân tích.
Không phù hợp với phỏng vấn bằng thư tín.
Khó khăn khi đáp viên trả lời dài dòng, lạc đề.
27
Câu hỏi đóng
Câu trả lời được soạn sẵn, đáp viên chỉ chọn những trả lời sẵn có.
Ví dụ: Ông (bà) trồng lúa theo mô hình 3g3t
1. Có (tiếp tục) 2. Không (tạm dừng)
Ông (bà) gặp những khó khăn nào trong canh tác lúa?
Vốn
Lao động
Công nghệ
Thời tiết
28
4. Từ ngữ sử dụng trong BCH
Câu hỏi phải diễn đạt vấn đề rõ ràng, dùng các từ: Who, What, Where, When, Why, How.
Sử dụng từ ngữ đơn giản, thông dụng.
Tránh dùng từ ngữ trừu tượng. (Vd: đi sthị có thường không?)
Tránh dùng câu hỏi có 2 vế song song (vừa - vừa).
Cẩn thận câu hỏi liên quan đến tự ái cá nhân. (hỏi về trình độ,..).
Ý nghĩa từ ng ữ được sử dụng? Có nghĩa nào khác không?
Từ đồng âm khác nghĩa.
Từ địa phương (vd: lợn-heo, trà-chè,)
29
5. Điều chỉnh BCH
Tiến hành điều tra thử (pretest, pilot survey).
Bổ sung, chỉnh sửa nếu có
Những cuộc phỏng vấn m ô phỏng .
Câu trả lời không đầy đủ, lạc đề, sai nội dung, không đọc được.
Hiệu chỉnh sai sót thông qua các BCH khác.
Dùng viết khác màu để chỉnh sửa.
Thống nhất nguyên tắc chỉnh lý chung.
30
6. Nhập số liệu
Mã hóa các câu hỏi và trả lời trước khi nhập,
Soạn thảo các tập tin mô tả việc mã hóa để phục vụ cho việc đọc số liệu trong tập tin dữ liệu.
Nhập số liệu vào máy tính, các phần mềm xử lý bảng tính: Excel, SPSS, Stata, Limdep,
Kiểm tra độ chính xác của việc nhập: so sánh ngẫu nhiên một số mẫu; tổ chức nhiều người nhập liệu song song,
31
XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU
i. Phân tích thống kê mô tả
Độ tập trung: mean, mode, median.
Độ phân tán:phương sai, độ lệch chuẩn, dãy biến động, hệ số biến động.
ii. Phân tích tần số: đếm tần số xuất hiện, đồ thị phân phối tần số.
iii. Phân tích phương sai: một chiều, nhiều chiều
iv. Phân tích hồi quy tương quan,
32
Các bước trong phân tích số liệu và viết báo cáo
Những câu hỏi cần trả lời
Các bước cần thực hiện
Các công việc chính trong mỗi bước
Các số liệu đã được thu thập cho mỗi mục tiêu NC là gì?
Số liệu có hoàn chỉnh và chính xác không?
Chuẩn bị số liệu cho phân tích
Xem xét lại việc thu thập tại thực địa,
Lập bảng kiểm kê các số liệu cho mỗi mục tiêu,
Xếp thứ tự các số liệu và kiểm tra chất lượng,
Kiểm tra output của máy tính
Các số liệu trông như thế nào?
Các số liệu có thể được tóm tắt như thế nào cho phân tích đơn giản?
Tóm tắt số liệu và mô tả các biến/xác định biến mới
B ảng tần suất, biểu đồ, biểu đồ phát triển, tỷ trọng, tần suất chéo, hệ số tương quan, các thống kê mô tả,
33
S ự tương quan giữa các biến số được xác định như thế nào ?
Ph ân tích sự tương quan
B ảng tần suất chéo,
Đo lường sự tương quan,
Xử lý các biến nhiễu.
C ó đo lường sự chênh lệch hay tương quan giữa các biến không ?
Chu ẩn bị cho phân tích thống kê
- C ác đo lường sự phân tán, phân phối chuẩn và sự biến động mẫu
X ác định loại của phân tích thống kê
- L ựa chọn các kiểm định về mức ý nghĩa
L àm thế nào sự khác biệt giữa các nhóm có thể được xác định ?
Ph ân tích các quan sát theo cặp và lẻ
T-test, chi-square test
paired t-test
Mc-Nemar’s chi-square test
L àm thế nào sự tương quan giữa các biến có thể được xác định ?
Th ực hiện các đo lường về sự tương quan
Bi ểu đồ phân tán,
Đường hồi quy, và
H ệ số tương quan
34
B áo cáo nên được viết như thế nào ?
Vi ết báo cáo và xây dựng các kiến nghị
Chu ẩn bị dàn ý của báo cáo,
Trình bày và diễn dịch số liệu,
Bản nháp và bản nháp lần 2.
Thảo luận và tóm tắt kết luận
Xây dựng kiến nghị
Nh ững kết quả và kiến nghị nên được công bố và sử dụng như thế nào ?
Tr ình bày tóm tắt và bản nháp cho việc thực hiện các kiến nghị
Thảo luận những tóm tắt và kế hoạch thực hiện đối với những người liên quan
35
Các file đính kèm theo tài liệu này:
- bai_giang_phuong_phap_nghien_cuu_kinh_te_chuong_3_thu_thap_v.ppt