Bài giảng Xử lý và phân tích dữ liệu
Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ
tự các yếu tố sau theo mức độ quan trọng của nó giảm
dần từ (1 đến 6).
----Giá cả thích hợp
----Xe vừa ý
----Người bán quen biết trước
----Vị trí cửa hàng thuận lợi
----Dịch vụ bán hàng tốt
----Được bạn bè hay người thân giới thiệu
59 trang |
Chia sẻ: hao_hao | Lượt xem: 3310 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Bài giảng Xử lý và phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1XỬ LÝ VÀ
PHÂN TÍCH DỮ LIỆU
Chương 7
2Mục tiêu chương 7
Chương này giúp học viên:
• Hiểu được các khái niệm về xử lý dữ liệu
• Phân biệt các phương pháp xử lý dữ liệu
• Biết được quy trình xử lý dữ liệu bằng SPSS
• Giải thích được ý nghĩa kết quả nghiên cứu
3Nội dung chương
Chuẩn bị dữ liệu5.2
5.1 Khái niệm về xử lý dữ liệu
Làm sạch dữ liệu5.4
5.5 Xử lý và phân tích dữ liệu
5.3 Mã hóa dữ liệu
47.1 Khái niệm về
phương pháp
xử lý dữ liệu
5Khái niệm
Xử lý dữ liệu là công việc diễn ra sau
quá trình thu thập dữ liệu
Nhiệm vụ của việc xử lý dữ liệu là
chuyển các dữ liệu dưới dạng thô
thành dữ liệu tinh
6Dữ liệu
thô
Dữ liệu
tinh
Quá trình chuyển hóa dữ liệu
7Các phương pháp xử lý dữ liệu
Phương pháp thủ công
- Phương pháp kiểm đếm
(Tallying)
- Phương pháp lựa ra và đếm
(Sorting and Counting)
8Các phương pháp xử lý dữ liệu
Phương pháp xử lý bằng máy tính
- Sử dụng các chuyên viên xử lý dữ liệu
- Sử dụng các phần mềm xử lý dữ liệu trọn gói
- Phát triển các phần mềm riêng
9Quy trình xử lý dữ liệu
4. Làm sạch dữ liệu
1. Giá trị hóa dữ liệu
3. Nhập dữ liệu vào máy tính
6. Phân tích dữ liệu
5. Lưu trữ dữ liệu để phân tích
2. Mã hóa các câu trả lời
Chuẩn bị
dữ liệu
Lưu trữ
và
Phân tích
10
7.2 Chuẩn bị dữ liệu
11
Công việc chuẩn bị dữ liệu
Kiểm tra tính hợp lệ của dữ liệu
Hiệu chỉnh dữ liệu
12
Kiểm tra tính hợp lệ của dữ liệu
Kiểm tra bảng câu hỏi đã được trả lời:
tính đầy đủ của bảng câu hỏi, việc ghi chép
câu trả lời…
Kiểm tra tính logic của các câu trả lời
Xem xét những chỉ dẫn về thủ tục phỏng vấn
Kiểm tra tính trung thực của các câu trả lời
13
Hiệu chỉnh dữ liệu
Liên hệ trực tiếp phỏng vấn viên để làm
sáng tỏ vấn đề: các câu trả lời không đọc
được, không rõ ý…
Gặp và phỏng vấn lại đáp viên
Suy luận từ các câu trả lời khác
Loại bỏ toàn bộ bản câu hỏi và tiến hành
phỏng vấn lại
14
7.3 Mã hóa dữ liệu
15
Khái niệm
Mã hóa dữ liệu (coding) là quá trình chuyển đổi
các trả lời thành dạng mã số để nhập và xử lý
dễ dàng
Được thực hiện trước hoặc sau khi phỏng vấn
Các ký hiệu mã hóa cho các biến và các trả lời
được trình bày trong một sổ mã (code book)
Dữ liệu mã hóa xong được nhập vào máy dưới
dạng một ma trận gọi là ma trận dữ liệu
16
Mã hóa dữ liệu trên bảng câu hỏi
Mã hóa câu hỏi mở
• Nhóm các câu trả lời có
cùng ý nghĩa
• Gán các con số cho các
nhóm trả lời
Mã hóa câu hỏi đóng
• Gán các con số cho
các câu trả lời được
liệt kê sẵn trên bảng
câu hỏi
17
Mã hóa dữ liệu trên bảng câu hỏi
Câu hỏi nhiều lựa chọn(MA)
- Phương pháp multiple dichotomy
- Phương pháp multiple category
• Ví dụ:
Bạn hãy đánh dấu vào nhóm phần mềm
mà bạn có thể sử dụng được:
Quản lý cơ sở dữ liệu
Phần mềm soạn thảo văn bản
Phần mềm bản tính
Phần mềm tài chính kế toán
Phần mềm truyền thông
Phần mềm khác (xin nêu rõ):
Câu hỏi một lựa chọn (SA)
• Thực hành ví dụ:
Bạn đánh giá mức thu nhập hiện
nay của bạn như thế nào?
quá thấp
thấp
trung bình
cao
rất cao
không trả lời
18
• Biến các trả lời thành các mã số, ký hiệu
mà máy tính hiểu được
• Giúp cho việc nhập liệu dễ dàng hơn
• Giúp nhà nghiên cứu trong việc phân tích
và diễn giải dữ liệu
Danh bạ mã hóa
hay sổ mã hóa
19
Nội dung trong danh bạ mã hóa
• Số thứ tự của câu hỏi.
• Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi).
• Tên của biến số phát sinh từ câu hỏi
• Nhãn của biến số (variable label)
• Các giá trị mã hóa: là các giá trị mà biến số có thể nhận
được để biểu diễn thông tin được trả lời
• Nhãn giá trị mã hoá (Value Label) thường dùng để mô tả ý
nghĩa của các giá trị mã hóa.
20
STT
câu
hỏi
Vấn đề
câu hỏi
Tên
biến số
Mô tả
biến số
Các giá trị
mã hóa
Mô tả các giá trị mã
hóa
1 Vùng
phỏng vấn
REGI Vùng địa lý 1
2
3
4
Hà Nội
Đà Nẵng
TP.HCM
Cần Thơ
2 Có sử dụng
sữa rửa
mặt không
USE 1
2
Có
Không
3 Sử dụng
nhãn hiệu
nào?
BRAND Nhãn hiệu
đang dùng
1
2
3
4
5
6
7
Pond’s
Hazeline
Biore
Lana
Nivea
Naco
Loại khác
4 Sử dụng
sữa rửa
mặt vào khi
nào?
TIME Thời điểm
sử dụng
1
2
3
4
5
Sáng sớm khi thức dậy
Buổi sáng
Buổi trưa
Buổi chiều
Tối trước khi ngủ
21
Câu hỏi
(biến)
Ý nghĩa câu hỏi Giá trị
mã hóa
Mô tả giá trị mã hóa
Q1 Giới tính đáp viên 1
2
Nam
Nữ
Q2 Nghề nghiệp đáp viên 1
2
3
4
5
6
7
Bác sĩ
Giáo viên
Nhân viên văn phòng
Công nhân
Hưu trí
Học sinh-sinh viên
Khác-----
----------- ----------------- ----------- ------------------------------
Q22a
Q20b
Đánh giá về bao bì
sản phẩm
Đánh giá về chất
lượng sản phẩm
1
2
3
Kém
Trung bình
Tốt
22
Ma trận dữ liệu
– Cột: là nơi quản lý các biến (các câu hỏi có trong
bảng câu hỏi)
– Loại câu hỏi một trả lời: chỉ cần một cột chứa các
giá trị trả lời
– Loại biến nhiều trả lời: nhiều cột chứa nhiều giá
trị trả lời có thể có
– Dòng: là nơi quản lý tất cả các quan sát (bằng
kích cỡ mẫu)
– Ô giao nhau giữa cột và dòng: là nơi chứa đựng
giá trị trả lời của một câu hỏi trong một quan sát
cụ thể.
23
24
7.4 Làm sạch dữ liệu
25
Làm sạch dữ liệu
Dữ liệu sau khi nhập xong, chưa thể đưa
ngay vào xử lý
Nhằm phát hiện các sai sót do người kiểm
soát chưa phát hiện ra hoặc do nhập liệu
26
Các phương pháp
làm sạch dữ liệu
• Dùng bảng tần số
• Dùng bảng kết hợp giữa hai hay ba biến
• Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu
(Data View)
27
Frequency Percent Valid
Percent
Cumulative
Percent
Valid Nam 248 49.6 49.6 49.6
Nữ 251 50.2 50.2 99.8
11 1 .2 .2 100.0
Total 500 100.0 100.0
Bảng mô tả về mẫu nghiên cứu theo giới tính
28
7.5 Xử lý và
phân tích dữ liệu
29
Phân tích dữ liệu thống kê bao gồm:
• Thống kê mô tả
• Thống kê suy diễn
Phân tích dữ liệu
30
Thống kê mô tả ( Descriptive Stactistics):
• Sử dụng bảng tần số
• Tính các đại lượng thống kê mô tả
• Bảng kết hợp nhiều biến
• Biểu đồ
31
• Dùng để đếm tần số về các biểu hiện của một
thuộc tính
• Được thực hiện với cả biến định tính và định lượng
• Cần tiến hành gom biến trước khi lập bảng tần số
với các biến định lượng có nhiều giá trị
Bảng tần số đơn giản
32
Bảng tần số đơn giản
Tần số Tyû leä %
Phần trăm
coù yù
nghóa
Phaàn traêm
tích luõy
alidV 1 - 3 trieäu 31 .31 0 .31 0 .31 0
3 - 5 trieäu
45 .45 0 .45 0 .76 0
5 - 7 trieäu
19 .19 0 .19 0 .95 0
> 7 trieäu
5 .5 0 .5 0 .100 0
Tổng
100 .100 0 .100 0
33
Frequency Percent
Cumulative
Percent
Valid 18 9 1.8 1.8
19 8 1.6 3.4
20 16 3.2 6.6
21 19 3.8 10.4
22 22 4.4 14.8
23 26 5.2 20.0
24 29 5.8 25.8
25 21 4.2 30.0
26 15 3.0 33.0
27 13 2.6 35.6
28 19 3.8 39.4
29 16 3.2 42.6
30 17 3.4 46.0
31 10 2.0 48.0
32 18 3.6 51.6
33 8 1.6 53.2
34 9 1.8 55.0
36 8 1.6 59.6
37 6 1.2 60.8
38 16 3.2 64.0
39 14 2.8 66.8
40 18 3.6 70.4
41 10 2.0 72.4
42 16 3.2 75.6
43 7 1.4 77.0
44 6 1.2 78.2
45 10 2.0 80.2
46 12 2.4 82.6
47 7 1.4 84.0
48 8 1.6 85.6
49 8 1.6 87.2
50 12 2.4 89.6
51 3 .6 90.2
52 7 1.4 91.6
53 4 .8 92.4
54 10 2.0 94.4
Bảng tần số về tuổi đáp viên
34
Bảng tần số về độ tuổi đã được mã hóa lại
Frequency Percent Valid Percent
Cumulative
Percent
Độ tuổi
18-25 150 30.0 30.0 30.0
26-35 140 28.0 28.0 58.0
36-45 111 22.2 22.2 80.2
46-60 99 19.8 19.8 100.0
Total 500 100.0 100.0
35
Tính các đại lượng thống kê
Các đại lượng đo lường độ tập trung phổ biến
• Mean: Trung bình cộng
• Mode: Giá trị có tần số quan sát lớn nhất
• Std.Deviation: Độ lệch chuẩn
• Minimum: Giá trị nhỏ nhất
• Maximum: Giá trị lớn nhất
• SE mean: Sai số chuẩn khi ước lượng trung
bình
36
Hình dáng của phân phối
37
Hình dáng của phân phối
38
Hình dáng của phân phối
39
Bảng tổng hợp nhiều biến
• Yêu cầu về thông tin đòi hỏi ta phải xem xét tần số
hay tần suất của các biểu hiện của một hay nhiều
biến theo sự phân loại của một số biến khác
Ví dụ: ta muốn biết số người trong độ tuổi từ 18
đến 25 trong mẫu quan sát là bao nhiêu nam, bao
nhiêu nữ
Vậy ta có bảng kết hợp giữa độ tuổi và giới tính
40
Bảng tổng hợp nhiều biến(tt)
• Bảng kết hợp giữa hai biến định tính
• Bảng kết hợp giữa ba biến định tính
• Bảng kết hợp giữa một biến định tính với một
biến định lượng
• Bảng kết hợp giữa hai biến định tính và một
biến định lượng
41
Cơ cấu mẫu điều tra về độ tuổi
theo từng nhóm giới tính
Giới tính Tổng
Nam Nữ
Tần số
% theo
cột Tần số
% theo
cột
Tần
suất
% theo
cột
Độ tuổi
18-25 58 23.3% 92 36.7% 150 30.0%
26-35 71 28.5% 69 27.5% 140 28.0%
36-45 68 27.3% 43 17.1% 111 22.2%
46-60 52 20.9% 47 18.7% 99 19.8%
Tổng 249 100.0% 251 100.0% 500 100.0%
42
Haø Noäi TPHCM
amN Nöõ Toång amN Nöõ Toång
Tần
số
Ñoä
tuoåi
18- 25 28 40 68 30 52 82
26- 35 33 39 72 38 30 68
36- 45 30 22 52 38 21 59
46-- 60
27 31 58 25 16 41
Toång 118 132 250 131 119 250
Tỷ lệ Ñoä
tuoåi
18- 25 .%23 7 .%30 3 .%27 2 .%22 9 .%43 7 .%32 8
26- 35 .%28 0 .%29 5 .%28 8 .%29 0 .%25 2 .%27 2
36- 45 .%25 4 .%16 7 .%20 8 .%29 0 .%17 6 .%23 6
46-- 60
.%22 9 .%23 5 .%23 2 .%19 1 .%13 4 .%16 4
Toång .%100 0 .%100 0 .%100 0 .%100 0 .%100 0 .%100 0
Cơ cấu độ tuổi theo giới tính tại hai thành phố
43
Mô tả dữ liệu bằng biểu đồ
Hiệu quả trong việc trình bày và báo cáo kết quả, vì:
Thể hiện thông tin sinh động, trực quan và hấp dẫn
Thu hút sự chú ý của người đọc
Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng
truyền đạt hiệu quả tốt
44
Một số dạng biểu đồ thường sử dụng
• Biểu đồ thanh (Bar Chart)
- Thanh ngang
- Thanh đứng
• Biểu đồ hình tròn (Pie Chart)
• Biều đồ diện tích
• Biểu đồ gấp khúc…
45
24%
25%
41%
41%
50%
83%
95%
96%
96%
79%
Đi giao dịch với khách hàng
Đi học
Đi làm việc những ngày cuối tuần
Đi hội họp
Đi làm việc những ngày trong tuần
Đi dự tiệc
Đi dạo (đi hóng mát)
Đi ăn uống (với nhiều người)
Đi mua sắm
Đi chơi
Các dịp sử dụng quần Jeans(biểu đồ thanh ngang
46
24% 25%
41% 41%
50%
83%
95% 96% 96%
79%
Các dịp sử dụng quần Jeans(biểu đồ thanh đứng)
47
Vậy khi nào chúng ta
sử dụng biểu đồ thanh
ngang/thanh đứng?
48
31%
16%
48%
39%
52%
81%
83%
88%
94%
92%
Đi giao dịch với khách
hàng
Đi học
Đi làm việc những ngày
cuối tuần (thứ Sáu/ thứ
Đi hội họp
Đi làm việc những ngày
trong tuần
Đi dự tiệc
Đi dạo (đi hóng mát)
Đi ăn uống (với nhiều
người)
Đi mua sắm
Đi chơi
47%
42%
60%
45%
73%
80%
76%
84%
85%
79%
Đi giao dịch với khách
hàng
Đi học
Đi làm việc những ngày
cuối tuần (thứ Sáu/ thứ
Đi hội họp
Đi làm việc những ngày
trong tuần
Đi dự tiệc
Đi dạo (đi hóng mát)
Đi ăn uống (với nhiều
người)
Đi mua sắm
Đi chơi
Đối tượng: Những người thường mua Q4b
24%
25%
41%
41%
50%
83%
95%
96%
96%
79%
Đi giao dịch với khách
hàng
Đi học
Đi làm việc những ngày
cuối tuần (thứ Sáu/ thứ
Đi hội họp
Đi làm việc những ngày
trong tuần
Đi dự tiệc
Đi dạo (đi hóng mát)
Đi ăn uống (với nhiều
người)
Đi mua sắm
Đi chơi
Quần jean Quần tây Quần Kaki
(n=183) (n=117) (n=83)
Dịp sử dụng quần
Quần jean và quần kaki cũng được sử dụng chủ yếu cho việc đi mua sắm, đi dạo,
đi chơi, đi ăn uống hoặc đi dự tiệc; và khoảng ½ người sử dụng quần jean và quần
kaki mặc chúng để đi làm
49
Thần tượng của giới trẻ
50
51
Q6. Nhãn hiệu quần jean đã từng mua? Thường mua? Thường mua nhất?
Đối tượng: Những người từng mua quần jean (n=219)
Từng mua Thường mua Thường mua nhất
2
5
21
25
28
37
Phương
Đông
Giordano
Bossini
B-Blue
PT 2000
Nino-Max
2
3
13
16
18
28
1
1
9
8
14
19
Thói quen mua các nhãn hiệu Quần Jean
52
Biểu đồ diện tích
Chi tiêu cá nhân
53
Thương mại
16%
Tài chính ngân
hàng
18%
Kế toán
32%
Marketing
25%
Kinh tế học
9%
Tỷ lệ sinh viên theo học các chuyên ngành
54
Thương mại
16%
Tài chính ngân
hàng
18%
Kế toán
32%
Marketing
25%
Kinh tế học
9%
16%
18%
32%
25%
9%
Thương mại
Tài chính ngân hàng
Kế toán
Marketing
Kinh tế học
• Biểu đồ nào
dễ quan sát
và so sánh
hơn?
55
2 2.5 3 3.5 4 4.5
Đánh giá nhãn hiệu áo
Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp Q7a
Mean
score
Có cửa hàng trưng bày và bán (showroom)
Được sản xuất bởi công ty quy mô/ tầm cỡ
Được bán tại các cửa hàng thời trang thông dụng thiết kế bắt mắt
Cung cách phục vụ của nhân viên bán hàng niềm nở/ tận tình
Được bán rộng rãi
Được quảng cáo trên phương tiện thông tin đại chúng
Sản xuất tại nước ngoài
Sản xuất tại Việt Nam
Nhãn hiệu uy tín
Nhãn hiệu nổi tiếng
Có kiểu dáng hợp thời trang
Có kiểu dáng chững chạc
Giá cả hợp lý
Thiết kế phù hợp với các sản phẩm thời trang đi kèm
Có độ bền màu cao
Có độ bền sản phẩm cao
Có kiểu dệt mới lạ
Có chất lượng đường may cao
Dễ giặt/ ủi
Chất liệu vải phù hợp với thời trang thông dụng
Màu sắc sản phẩm phù hợp cho thời trang thông dụng
Bossini (n=155)
Thành công(n=75)
F-house/Phương Đông(n=69)
John Henry (n=37)
Giordano (n=49)
56Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp - Nhóm kinh doanh/giao tiếp- Q20
Perceptual Map (Dim I : Dim II)
0.645 va riance
0.247 va riance
Boss ini
Thaønh Coâng
F-House
John Henry
Giordano
Gaàn guõi
Bình daân
Coå ñieån
Laâu ñôøi
Nghieâm tuùc
Thanh lòch
Quoàc teá
Cao caáp
Thôøi thöôïng
Ñoäc ñaùo
Chaát löôïng
Hie än ña ïi
Treû trung
Naêng ñoäng
Cá tính thương hiệu
57
1. Mã hóa dữ liệu là gì? Vì sao phải mã hóa dữ
liệu? Mã hóa câu hỏi đóng và câu hỏi mở có gì
khác nhau?
2. Trình bày ưu điểm, nhược điểm của hai
phương pháp mã hóa
3. Mô tả dữ liệu bằng bảng và đồ thị có ưu nhược
điểm gì? Khi nào nhà nghiên cứu mô tả dữ liệu
bằng biểu đồ hình tròn, hình thanh.
4. Hãy mã hóa các câu hỏi sau đây?
CÂU HỎI VÀ THẢO LUẬN
58
a) Bạn đánh giá khả năng của bạn về việc sử dụng các phần
mềm sau đây:
Tốt Khá Trung bình Không biết sử dụng
MS Word
MS Excel
MS Access
MS Power Point
Corel Draws
SPSS
Phần mềm khác
THỰC HÀNH MÃ HÓA CÂU HỎI
59
b) Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ
tự các yếu tố sau theo mức độ quan trọng của nó giảm
dần từ (1 đến 6).
----Giá cả thích hợp
----Xe vừa ý
----Người bán quen biết trước
----Vị trí cửa hàng thuận lợi
----Dịch vụ bán hàng tốt
----Được bạn bè hay người thân giới thiệu
Các file đính kèm theo tài liệu này:
- chuong_7_xu_ly_va_phan_tich_dl_1437.pdf