Bài giảng Xử lý và phân tích dữ liệu

Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ tự các yếu tố sau theo mức độ quan trọng của nó giảm dần từ (1 đến 6). ----Giá cả thích hợp ----Xe vừa ý ----Người bán quen biết trước ----Vị trí cửa hàng thuận lợi ----Dịch vụ bán hàng tốt ----Được bạn bè hay người thân giới thiệu

pdf59 trang | Chia sẻ: hao_hao | Lượt xem: 3328 | Lượt tải: 4download
Bạn đang xem trước 20 trang tài liệu Bài giảng Xử lý và phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU Chương 7 2Mục tiêu chương 7 Chương này giúp học viên: • Hiểu được các khái niệm về xử lý dữ liệu • Phân biệt các phương pháp xử lý dữ liệu • Biết được quy trình xử lý dữ liệu bằng SPSS • Giải thích được ý nghĩa kết quả nghiên cứu 3Nội dung chương Chuẩn bị dữ liệu5.2 5.1 Khái niệm về xử lý dữ liệu Làm sạch dữ liệu5.4 5.5 Xử lý và phân tích dữ liệu 5.3 Mã hóa dữ liệu 47.1 Khái niệm về phương pháp xử lý dữ liệu 5Khái niệm  Xử lý dữ liệu là công việc diễn ra sau quá trình thu thập dữ liệu  Nhiệm vụ của việc xử lý dữ liệu là chuyển các dữ liệu dưới dạng thô thành dữ liệu tinh 6Dữ liệu thô Dữ liệu tinh Quá trình chuyển hóa dữ liệu 7Các phương pháp xử lý dữ liệu Phương pháp thủ công - Phương pháp kiểm đếm (Tallying) - Phương pháp lựa ra và đếm (Sorting and Counting) 8Các phương pháp xử lý dữ liệu  Phương pháp xử lý bằng máy tính - Sử dụng các chuyên viên xử lý dữ liệu - Sử dụng các phần mềm xử lý dữ liệu trọn gói - Phát triển các phần mềm riêng 9Quy trình xử lý dữ liệu 4. Làm sạch dữ liệu 1. Giá trị hóa dữ liệu 3. Nhập dữ liệu vào máy tính 6. Phân tích dữ liệu 5. Lưu trữ dữ liệu để phân tích 2. Mã hóa các câu trả lời Chuẩn bị dữ liệu Lưu trữ và Phân tích 10 7.2 Chuẩn bị dữ liệu 11 Công việc chuẩn bị dữ liệu Kiểm tra tính hợp lệ của dữ liệu Hiệu chỉnh dữ liệu 12 Kiểm tra tính hợp lệ của dữ liệu  Kiểm tra bảng câu hỏi đã được trả lời: tính đầy đủ của bảng câu hỏi, việc ghi chép câu trả lời…  Kiểm tra tính logic của các câu trả lời  Xem xét những chỉ dẫn về thủ tục phỏng vấn  Kiểm tra tính trung thực của các câu trả lời 13 Hiệu chỉnh dữ liệu  Liên hệ trực tiếp phỏng vấn viên để làm sáng tỏ vấn đề: các câu trả lời không đọc được, không rõ ý…  Gặp và phỏng vấn lại đáp viên  Suy luận từ các câu trả lời khác  Loại bỏ toàn bộ bản câu hỏi và tiến hành phỏng vấn lại 14 7.3 Mã hóa dữ liệu 15 Khái niệm  Mã hóa dữ liệu (coding) là quá trình chuyển đổi các trả lời thành dạng mã số để nhập và xử lý dễ dàng  Được thực hiện trước hoặc sau khi phỏng vấn  Các ký hiệu mã hóa cho các biến và các trả lời được trình bày trong một sổ mã (code book)  Dữ liệu mã hóa xong được nhập vào máy dưới dạng một ma trận gọi là ma trận dữ liệu 16 Mã hóa dữ liệu trên bảng câu hỏi Mã hóa câu hỏi mở • Nhóm các câu trả lời có cùng ý nghĩa • Gán các con số cho các nhóm trả lời Mã hóa câu hỏi đóng • Gán các con số cho các câu trả lời được liệt kê sẵn trên bảng câu hỏi 17 Mã hóa dữ liệu trên bảng câu hỏi Câu hỏi nhiều lựa chọn(MA) - Phương pháp multiple dichotomy - Phương pháp multiple category • Ví dụ:  Bạn hãy đánh dấu vào nhóm phần mềm mà bạn có thể sử dụng được: Quản lý cơ sở dữ liệu Phần mềm soạn thảo văn bản Phần mềm bản tính Phần mềm tài chính kế toán Phần mềm truyền thông Phần mềm khác (xin nêu rõ): Câu hỏi một lựa chọn (SA) • Thực hành ví dụ:  Bạn đánh giá mức thu nhập hiện nay của bạn như thế nào? quá thấp thấp trung bình cao rất cao không trả lời 18 • Biến các trả lời thành các mã số, ký hiệu mà máy tính hiểu được • Giúp cho việc nhập liệu dễ dàng hơn • Giúp nhà nghiên cứu trong việc phân tích và diễn giải dữ liệu Danh bạ mã hóa hay sổ mã hóa 19 Nội dung trong danh bạ mã hóa • Số thứ tự của câu hỏi. • Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi). • Tên của biến số phát sinh từ câu hỏi • Nhãn của biến số (variable label) • Các giá trị mã hóa: là các giá trị mà biến số có thể nhận được để biểu diễn thông tin được trả lời • Nhãn giá trị mã hoá (Value Label) thường dùng để mô tả ý nghĩa của các giá trị mã hóa. 20 STT câu hỏi Vấn đề câu hỏi Tên biến số Mô tả biến số Các giá trị mã hóa Mô tả các giá trị mã hóa 1 Vùng phỏng vấn REGI Vùng địa lý 1 2 3 4 Hà Nội Đà Nẵng TP.HCM Cần Thơ 2 Có sử dụng sữa rửa mặt không USE 1 2 Có Không 3 Sử dụng nhãn hiệu nào? BRAND Nhãn hiệu đang dùng 1 2 3 4 5 6 7 Pond’s Hazeline Biore Lana Nivea Naco Loại khác 4 Sử dụng sữa rửa mặt vào khi nào? TIME Thời điểm sử dụng 1 2 3 4 5 Sáng sớm khi thức dậy Buổi sáng Buổi trưa Buổi chiều Tối trước khi ngủ 21 Câu hỏi (biến) Ý nghĩa câu hỏi Giá trị mã hóa Mô tả giá trị mã hóa Q1 Giới tính đáp viên 1 2 Nam Nữ Q2 Nghề nghiệp đáp viên 1 2 3 4 5 6 7 Bác sĩ Giáo viên Nhân viên văn phòng Công nhân Hưu trí Học sinh-sinh viên Khác----- ----------- ----------------- ----------- ------------------------------ Q22a Q20b Đánh giá về bao bì sản phẩm Đánh giá về chất lượng sản phẩm 1 2 3 Kém Trung bình Tốt 22 Ma trận dữ liệu – Cột: là nơi quản lý các biến (các câu hỏi có trong bảng câu hỏi) – Loại câu hỏi một trả lời: chỉ cần một cột chứa các giá trị trả lời – Loại biến nhiều trả lời: nhiều cột chứa nhiều giá trị trả lời có thể có – Dòng: là nơi quản lý tất cả các quan sát (bằng kích cỡ mẫu) – Ô giao nhau giữa cột và dòng: là nơi chứa đựng giá trị trả lời của một câu hỏi trong một quan sát cụ thể. 23 24 7.4 Làm sạch dữ liệu 25 Làm sạch dữ liệu  Dữ liệu sau khi nhập xong, chưa thể đưa ngay vào xử lý  Nhằm phát hiện các sai sót do người kiểm soát chưa phát hiện ra hoặc do nhập liệu 26 Các phương pháp làm sạch dữ liệu • Dùng bảng tần số • Dùng bảng kết hợp giữa hai hay ba biến • Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu (Data View) 27 Frequency Percent Valid Percent Cumulative Percent Valid Nam 248 49.6 49.6 49.6 Nữ 251 50.2 50.2 99.8 11 1 .2 .2 100.0 Total 500 100.0 100.0 Bảng mô tả về mẫu nghiên cứu theo giới tính 28 7.5 Xử lý và phân tích dữ liệu 29 Phân tích dữ liệu thống kê bao gồm: • Thống kê mô tả • Thống kê suy diễn Phân tích dữ liệu 30 Thống kê mô tả ( Descriptive Stactistics): • Sử dụng bảng tần số • Tính các đại lượng thống kê mô tả • Bảng kết hợp nhiều biến • Biểu đồ 31 • Dùng để đếm tần số về các biểu hiện của một thuộc tính • Được thực hiện với cả biến định tính và định lượng • Cần tiến hành gom biến trước khi lập bảng tần số với các biến định lượng có nhiều giá trị Bảng tần số đơn giản 32 Bảng tần số đơn giản Tần số Tyû leä % Phần trăm coù yù nghóa Phaàn traêm tích luõy alidV 1 - 3 trieäu 31 .31 0 .31 0 .31 0 3 - 5 trieäu 45 .45 0 .45 0 .76 0 5 - 7 trieäu 19 .19 0 .19 0 .95 0 > 7 trieäu 5 .5 0 .5 0 .100 0 Tổng 100 .100 0 .100 0 33 Frequency Percent Cumulative Percent Valid 18 9 1.8 1.8 19 8 1.6 3.4 20 16 3.2 6.6 21 19 3.8 10.4 22 22 4.4 14.8 23 26 5.2 20.0 24 29 5.8 25.8 25 21 4.2 30.0 26 15 3.0 33.0 27 13 2.6 35.6 28 19 3.8 39.4 29 16 3.2 42.6 30 17 3.4 46.0 31 10 2.0 48.0 32 18 3.6 51.6 33 8 1.6 53.2 34 9 1.8 55.0 36 8 1.6 59.6 37 6 1.2 60.8 38 16 3.2 64.0 39 14 2.8 66.8 40 18 3.6 70.4 41 10 2.0 72.4 42 16 3.2 75.6 43 7 1.4 77.0 44 6 1.2 78.2 45 10 2.0 80.2 46 12 2.4 82.6 47 7 1.4 84.0 48 8 1.6 85.6 49 8 1.6 87.2 50 12 2.4 89.6 51 3 .6 90.2 52 7 1.4 91.6 53 4 .8 92.4 54 10 2.0 94.4 Bảng tần số về tuổi đáp viên 34 Bảng tần số về độ tuổi đã được mã hóa lại Frequency Percent Valid Percent Cumulative Percent Độ tuổi 18-25 150 30.0 30.0 30.0 26-35 140 28.0 28.0 58.0 36-45 111 22.2 22.2 80.2 46-60 99 19.8 19.8 100.0 Total 500 100.0 100.0 35 Tính các đại lượng thống kê  Các đại lượng đo lường độ tập trung phổ biến • Mean: Trung bình cộng • Mode: Giá trị có tần số quan sát lớn nhất • Std.Deviation: Độ lệch chuẩn • Minimum: Giá trị nhỏ nhất • Maximum: Giá trị lớn nhất • SE mean: Sai số chuẩn khi ước lượng trung bình 36 Hình dáng của phân phối 37 Hình dáng của phân phối 38 Hình dáng của phân phối 39 Bảng tổng hợp nhiều biến • Yêu cầu về thông tin đòi hỏi ta phải xem xét tần số hay tần suất của các biểu hiện của một hay nhiều biến theo sự phân loại của một số biến khác  Ví dụ: ta muốn biết số người trong độ tuổi từ 18 đến 25 trong mẫu quan sát là bao nhiêu nam, bao nhiêu nữ  Vậy ta có bảng kết hợp giữa độ tuổi và giới tính 40 Bảng tổng hợp nhiều biến(tt) • Bảng kết hợp giữa hai biến định tính • Bảng kết hợp giữa ba biến định tính • Bảng kết hợp giữa một biến định tính với một biến định lượng • Bảng kết hợp giữa hai biến định tính và một biến định lượng 41 Cơ cấu mẫu điều tra về độ tuổi theo từng nhóm giới tính Giới tính Tổng Nam Nữ Tần số % theo cột Tần số % theo cột Tần suất % theo cột Độ tuổi 18-25 58 23.3% 92 36.7% 150 30.0% 26-35 71 28.5% 69 27.5% 140 28.0% 36-45 68 27.3% 43 17.1% 111 22.2% 46-60 52 20.9% 47 18.7% 99 19.8% Tổng 249 100.0% 251 100.0% 500 100.0% 42 Haø Noäi TPHCM amN Nöõ Toång amN Nöõ Toång Tần số Ñoä tuoåi 18- 25 28 40 68 30 52 82 26- 35 33 39 72 38 30 68 36- 45 30 22 52 38 21 59 46-- 60 27 31 58 25 16 41 Toång 118 132 250 131 119 250 Tỷ lệ Ñoä tuoåi 18- 25 .%23 7 .%30 3 .%27 2 .%22 9 .%43 7 .%32 8 26- 35 .%28 0 .%29 5 .%28 8 .%29 0 .%25 2 .%27 2 36- 45 .%25 4 .%16 7 .%20 8 .%29 0 .%17 6 .%23 6 46-- 60 .%22 9 .%23 5 .%23 2 .%19 1 .%13 4 .%16 4 Toång .%100 0 .%100 0 .%100 0 .%100 0 .%100 0 .%100 0 Cơ cấu độ tuổi theo giới tính tại hai thành phố 43 Mô tả dữ liệu bằng biểu đồ Hiệu quả trong việc trình bày và báo cáo kết quả, vì:  Thể hiện thông tin sinh động, trực quan và hấp dẫn  Thu hút sự chú ý của người đọc  Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng truyền đạt hiệu quả tốt 44 Một số dạng biểu đồ thường sử dụng • Biểu đồ thanh (Bar Chart) - Thanh ngang - Thanh đứng • Biểu đồ hình tròn (Pie Chart) • Biều đồ diện tích • Biểu đồ gấp khúc… 45 24% 25% 41% 41% 50% 83% 95% 96% 96% 79% Đi giao dịch với khách hàng Đi học Đi làm việc những ngày cuối tuần Đi hội họp Đi làm việc những ngày trong tuần Đi dự tiệc Đi dạo (đi hóng mát) Đi ăn uống (với nhiều người) Đi mua sắm Đi chơi Các dịp sử dụng quần Jeans(biểu đồ thanh ngang 46 24% 25% 41% 41% 50% 83% 95% 96% 96% 79% Các dịp sử dụng quần Jeans(biểu đồ thanh đứng) 47 Vậy khi nào chúng ta sử dụng biểu đồ thanh ngang/thanh đứng? 48 31% 16% 48% 39% 52% 81% 83% 88% 94% 92% Đi giao dịch với khách hàng Đi học Đi làm việc những ngày cuối tuần (thứ Sáu/ thứ Đi hội họp Đi làm việc những ngày trong tuần Đi dự tiệc Đi dạo (đi hóng mát) Đi ăn uống (với nhiều người) Đi mua sắm Đi chơi 47% 42% 60% 45% 73% 80% 76% 84% 85% 79% Đi giao dịch với khách hàng Đi học Đi làm việc những ngày cuối tuần (thứ Sáu/ thứ Đi hội họp Đi làm việc những ngày trong tuần Đi dự tiệc Đi dạo (đi hóng mát) Đi ăn uống (với nhiều người) Đi mua sắm Đi chơi Đối tượng: Những người thường mua Q4b 24% 25% 41% 41% 50% 83% 95% 96% 96% 79% Đi giao dịch với khách hàng Đi học Đi làm việc những ngày cuối tuần (thứ Sáu/ thứ Đi hội họp Đi làm việc những ngày trong tuần Đi dự tiệc Đi dạo (đi hóng mát) Đi ăn uống (với nhiều người) Đi mua sắm Đi chơi Quần jean Quần tây Quần Kaki (n=183) (n=117) (n=83) Dịp sử dụng quần Quần jean và quần kaki cũng được sử dụng chủ yếu cho việc đi mua sắm, đi dạo, đi chơi, đi ăn uống hoặc đi dự tiệc; và khoảng ½ người sử dụng quần jean và quần kaki mặc chúng để đi làm 49 Thần tượng của giới trẻ 50 51 Q6. Nhãn hiệu quần jean đã từng mua? Thường mua? Thường mua nhất? Đối tượng: Những người từng mua quần jean (n=219) Từng mua Thường mua Thường mua nhất 2 5 21 25 28 37 Phương Đông Giordano Bossini B-Blue PT 2000 Nino-Max 2 3 13 16 18 28 1 1 9 8 14 19 Thói quen mua các nhãn hiệu Quần Jean 52 Biểu đồ diện tích Chi tiêu cá nhân 53 Thương mại 16% Tài chính ngân hàng 18% Kế toán 32% Marketing 25% Kinh tế học 9% Tỷ lệ sinh viên theo học các chuyên ngành 54 Thương mại 16% Tài chính ngân hàng 18% Kế toán 32% Marketing 25% Kinh tế học 9% 16% 18% 32% 25% 9% Thương mại Tài chính ngân hàng Kế toán Marketing Kinh tế học • Biểu đồ nào dễ quan sát và so sánh hơn? 55 2 2.5 3 3.5 4 4.5 Đánh giá nhãn hiệu áo Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp Q7a Mean score Có cửa hàng trưng bày và bán (showroom) Được sản xuất bởi công ty quy mô/ tầm cỡ Được bán tại các cửa hàng thời trang thông dụng thiết kế bắt mắt Cung cách phục vụ của nhân viên bán hàng niềm nở/ tận tình Được bán rộng rãi Được quảng cáo trên phương tiện thông tin đại chúng Sản xuất tại nước ngoài Sản xuất tại Việt Nam Nhãn hiệu uy tín Nhãn hiệu nổi tiếng Có kiểu dáng hợp thời trang Có kiểu dáng chững chạc Giá cả hợp lý Thiết kế phù hợp với các sản phẩm thời trang đi kèm Có độ bền màu cao Có độ bền sản phẩm cao Có kiểu dệt mới lạ Có chất lượng đường may cao Dễ giặt/ ủi Chất liệu vải phù hợp với thời trang thông dụng Màu sắc sản phẩm phù hợp cho thời trang thông dụng Bossini (n=155) Thành công(n=75) F-house/Phương Đông(n=69) John Henry (n=37) Giordano (n=49) 56Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp - Nhóm kinh doanh/giao tiếp- Q20 Perceptual Map (Dim I : Dim II) 0.645 va riance 0.247 va riance Boss ini Thaønh Coâng F-House John Henry Giordano Gaàn guõi Bình daân Coå ñieån Laâu ñôøi Nghieâm tuùc Thanh lòch Quoàc teá Cao caáp Thôøi thöôïng Ñoäc ñaùo Chaát löôïng Hie än ña ïi Treû trung Naêng ñoäng Cá tính thương hiệu 57 1. Mã hóa dữ liệu là gì? Vì sao phải mã hóa dữ liệu? Mã hóa câu hỏi đóng và câu hỏi mở có gì khác nhau? 2. Trình bày ưu điểm, nhược điểm của hai phương pháp mã hóa 3. Mô tả dữ liệu bằng bảng và đồ thị có ưu nhược điểm gì? Khi nào nhà nghiên cứu mô tả dữ liệu bằng biểu đồ hình tròn, hình thanh. 4. Hãy mã hóa các câu hỏi sau đây? CÂU HỎI VÀ THẢO LUẬN 58 a) Bạn đánh giá khả năng của bạn về việc sử dụng các phần mềm sau đây: Tốt Khá Trung bình Không biết sử dụng MS Word MS Excel MS Access MS Power Point Corel Draws SPSS Phần mềm khác THỰC HÀNH MÃ HÓA CÂU HỎI 59 b) Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ tự các yếu tố sau theo mức độ quan trọng của nó giảm dần từ (1 đến 6). ----Giá cả thích hợp ----Xe vừa ý ----Người bán quen biết trước ----Vị trí cửa hàng thuận lợi ----Dịch vụ bán hàng tốt ----Được bạn bè hay người thân giới thiệu

Các file đính kèm theo tài liệu này:

  • pdfchuong_7_xu_ly_va_phan_tich_dl_1437.pdf