Bài giảng Phân tích dữ liệu

Mụcđích:Xácđịnh sốlượng và bảnchấtcủacácthứ nguyên (dimensions)đặctrưng cho nhậnthức/đánh giá của khách hàng vềcácđốitượng. ™ Thangđo:Cảhai loại thang metric/nonmetric ™ Trong MR: Thườngđượcsửdụng trong bài toán xácđịnh vị trí tươngđối (relative position) của các nhãn hiệucạnh tranh nhau do phảnhồitừphía khách hàng. ™ Xácđịnh những yếutốđặctrưng cho việcđánh giá của khách hàng. ™ Là phương pháp ngượcvới Cluster

pdf84 trang | Chia sẻ: hao_hao | Lượt xem: 2833 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH DỮ LIỆU Xử lý dữ liệu Phân tích đơn biến Phân tích nhị biến Tổng quan về phân tích đa biến Xử lý dữ liệu Phân tích đơn biến Phân tích nhị biến Tổng quan về phân tích đa biến Hiệu chỉnh (Editing) Mã hoá (Coding) Tạo tập tin dữ liệu ` Mục đích ™ Đúng thủ tục/đối tượng phỏng vấn (legibility) ™ Xử lý các phỏng vấn/trả lời không hoàn chỉnh (completeness) ™ Tính nhất quán của các trả lời (consistency) ™ Sự chính xác của các trả lời (accuracy) ™ Sự rõ ràng của các trả lời (clarification) ` Quá trình Hiệu chỉnh sơ bộ (field editing): • Thực hiện bởi interviewer • Càng sớm càng tốt sau khi phỏng vấn xong Hiệu chỉnh cuối cùng (office editing): • Thực hiện bởi editor • Sau khi thu thập xong data • Đòi hỏi người hiệu chỉnh phải có nhiều kinh nghiệm, kiến thức. ` Xử lý khi phát hiện lỗi ™ Liên lạc trở lại để bổ sung hoặc làm rõ ™ Hiệu chỉnh, làm rõ hoặc bổ sung theo trí nhớ hoặc các cứ liệu/suy luận khác ™ Hủy bỏ một số câu trả lời (missing value) ™ Hủy hoàn toàn cuộc phỏng vấn/questionnaire Là quá trình gán mã số (số hoặc nhãn) cho các biến và các trả lời. Thang đo của biến tùy thuộc vào cách hỏi và bản chất của biến được hỏi. ` Các bước mã hoá ◦ Đặt tên biến cho các câu hỏi x Câu hỏi 1 chọn lựa x Câu hỏi nhiều chọn lựa ◦ Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số/nhãn phù hợp, có ý nghĩa. x Câu hỏi đóng x Câu hỏi mở x Câu hỏi có chọn lựa: “Khác” x Hai trường hợp “Không biết” Tính phù hợp (appropriateness) Tính toàn diện (exhaustiveness) Tính loại trừ nhau (mutual exclusivity) Tính đơn nguyên (unidimensionality) NGUYÊN TẮC Cách phân loại/ nhóm phải phù hợp với vấn đề/ mục tiêu nghiên cứu. Thí dụ: Thông tin cá nhân hoặc doanh nghiệp. Tuổi <18 18-30 …. ? <16 16-25 …. ? Tính phù hợp (appropriateness) Tính toàn diện (exhaustiveness) ™ Các mã số cần thể hiện các loại cần NC. ™ Loại “trả lời khác” nên chiếm tỉ lệ nhỏ nhất. Thí dụ: Tuổi <18 18-30 >30 ?? Mỗi trả lời chỉ tương ứng với một mã số. Tính loại trừ nhau (mutual exclusivity) Thí dụ: quốc doanh, tư nhân, TNHH, cổ phần ?? Mỗi câu trả lời ứng với một thứ nguyên duy nhất. Tính đơn nguyên (unidimensionality) ‰ Nhập dữ liệu vào file (SPSS) ‰ Cải biến tập dữ liệu ‰ Tạo biến mới, biến trung gian, v.v. ‰ Xử lý missing value Thí dụ về data file Xử lý dữ liệu Phân tích đơn biến Phân tích nhị biến Tổng quan về phân tích đa biến Tổng quan về phân tích dữ liệu Tổng quát về phân tích đơn biến Thống kê mô tả Kiểm nghiệm giả thuyết đơn biến ` Chọn phương pháp phân tích đơn biến nào? ` Tùy vào: ™ Có bao nhiêu biến được phân tích đồng thời? ™ Mục tiêu phân tích chỉ là mô tả mẫu hay suy đoán cho tổng thể ™ Các biến được đo bởi thang đo gì? Chỉ danh, thứ tự, khoảng, tỉ lệ. Start Bao nhiêu biến được phân tích đồng thời Phân tích đơn biến Phân tích nhị biến Phân tích đa biến 2 biến 1 biến Trên 2 biến Phân tích đơn biến Chi – square test Kolmogorov – Smirnov test Yếu vị Tần suất Trung vị Khoảng/ phần trăm Z test/ t test Trung bình Phương sai Thang đo của biến Thứ tự Chỉ danhKhoảng MÔ TẢ SUY ĐOÁN Response Category Frequency Percentage Cum. Percentage Benthanh 1 - - Foster 3 1 1 Saigon 45 18 19 Heineken 120 46 65 Tiger 92 35 100 261 100% Biến chỉ danh, thứ tự Ví dụ ` Lợi ích của biến chỉ danh, thứ tự: ™ Trình bày phân phối dữ liệu của một biến có thang đo nominal hoặc ordinal. ™ Phát hiện một số dạng sai sót khi mã hoá. ™ So sánh với các phân phối/ dữ liệu có liên quan. ™ Đề nghị những phương pháp biến đổi các biến ™ Kiểm tra sampling. N 215 Minimum 1 Maximum 5 Mean Statistic 2.25 Std. Error 0.06 Std. Deviation Statistic 0.83 Skewness Statistic 0.57 Std. Error 0.17 Kurtosis Statistic 0.45 Std. Error 0.33 Biến khoảng Ví dụ Kiểm chứng xem những phát biểu nào đó có thích hợp cho tổng thể nghiên cứu hay không. • TD: Bình quân tuổi của 100 SV trong mẫu là Ā = 24 (s=5). Nhà NC muốn kiểm chứng cho tổng thể: • Null hypothesis Ho: µ = 23 • Alternative hypothesis H1: µ ≠ 23 Các phân tích liên quan đến kiểm nghiệm giả thuyết gọi là phân tích suy luận (inferential analysis). B1 • Thiết lập giả thuyết H0 và H1 B2 • Xác định phương pháp test phù hợp (statistical test). B3 • Chọn trước mức ý nghĩa α (significance level) B4 • Tính (tra bảng) giá trị test tới hạn (critical value) ứng với α (one/ two tailed) B5 • Tính giá trị kiểm nghiệm thống kê từ tập số liệu B6 • Nếu giá trị tính được ở B5 lớn hơn giá trị tới hạnÎ loại Ho ` Biến đo bằng thang khoảng (interval) ◦ Có thể dùng t Test hoặc Z Test để test giá trị trung bình của tổng thể khi biết giá trị trung bình của mẫu Z TEST t TEST ™ Biết phương sai σ của tổng thể và cỡ mẫu bất kỳ. ™ Không biết phương sai σ của tổng thể và cỡ mẫu n >30 ™ Không biết phương sai σ của tổng thể và cỡ mẫu bất kỳ. ™ Khi cỡ mẫu n > 30 thì phân phối t = phân phối z ™ Lưu ý: khi tra bảng tc thì dF = n-1 xS xt μ−= Thí dụ (tiếp theo thí dụ trên) ` Bình quân tuổi của 100 SV trong mẫu là Ā = 24 (s=5). Nhà NC muốn kiểm chứng cho tổng thể: Null hypothesis Ho: µ = 23 Alternative hypothesis H1: µ ≠ 23 x Do n = 100 > 30 nên dùng Z test x Chọn mức ý nghĩa α = 0.05 (two tailed)Æ Zc = 1.96 x Tính Z khi chưa biết σ : Z = (Ā - µ) n1/2/s = (24 - 23) x 1001/2/5 = 2 x Z = 2 > Zc = 1.96 Î loại Ho Î Không thể kết luận (với significant 5%) là µ = 23 Lưu ý: Nếu biến tỉ lệ thì Z = (p - π)/ (pq/ n)1/2 ` Biến đo bằng thang thứ tự (ordinal) ◦ Dùng chi-square test để so sánh phân phối các loại (categories) của mẫu và kỳ vọng của tổng thể Các bước tiến hành B1. Phát biểu giả thuyết H0, H1 B2. Xác định mức ý nghĩa α và bậc tự do df B5. Bác bỏ/chấp nhận H0 dựa trên tiêu chuẩn “Bác bỏ H0- nếu (tính được) > (tới hạn)”. B3. Tra bảng Chi- Square chuẩnÎ B4. Tính giá trị kiểm nghiệm theo công thức 2 cχ df = k – 1 (k là số loại danh định có thể chọn trong biến thứ tự) ∑ = −= k i i ii E EO 1 2 2 )(χ Oi: Số lần xuất hiện loại i trong mẫuEi: Giá trị kỳ vọng của số lần xuất hiện ` Biến đo bằng thang thứ tự (ordinal) ◦ Dùng chi-square test để so sánh phân phối các loại (categories) của mẫu và kỳ vọng của tổng thể Các bước tiến hành ◦ Nghĩa là có sự khác biệt giữa phân phối của mẫu và phân phối của tổng thể. ◦ Kiểm định Chi-Square không có ý nghĩa khi số lần xuất hiện kỳ vọng cho mỗi lựa chọn < 5. ` Thí dụ: Khảo sát 100 người đang sử dụng internet ở HCMC Nghề nghiệp Oi Ei Oi - Ei (Oi - Ei)2 (Oi - Ei)2/ Ei Lao động Nhân viên VP Quản lý Sinh viên 15 20 30 35 25 25 25 25 -10 -5 5 10 100 25 25 100 4 1 1 4 Total 100 100 =102χ Thí dụ: Khảo sát 100 người đang sử dụng internet ở HCMC (n = 100) ` Cột 1: Phân bố nghề nghiệp của những người sử dụng internet. ` Cột 2: Phân bố kỳ vọng (bằng nhau cho các nhóm) ` Ho: Không có sự khác nhau về nghề nghiệp của những người sử dụng internet ` K = 4 loại nghề nghiệpÆ Df = k - 1 = 3 = 6.25 ( với α = 10%) ` Vì = 10 > = 6.25Æ loại bỏ H0 2 cχ 2χ 2cχ Xử lý dữ liệu Phân tích đơn biến Phân tích nhị biến Tổng quan về phân tích đa biến Bảng 2 chiều (Two – way Tabulation) ™ Khảo sát mức độ và các mối liên hệ (có thể có) giữa các cặp biến. ™ Thích hợp cho các trường hợp số loại trong mỗi biến không lớn, thang đo nominal hoặc ordinal. ™ Chỉ định hướng, không kết luận về mối quan hệ nhân quả giữa các biến. ™ Kết quả có thể bị lệch nếu các ô có giá trị nhỏ. Function group Total Mkt & Sales Prodct Others G e n d e r Male Count 41 62 41 144 % within Gender 28.5% 43.1% 28.5% 100.0% % within Functgr 74.5% 93.9% 53.2% 72.7% % of Total 20.7% 31.3% 20.7% 72.7% Female Count 14 4 36 54 % within Gender 25.9% 7.4% 66.7% 100.0% % within Functgr 25.5% 6.1% 46.8% 27.3% % of Total 7.1% 2.0% 18.2% 27.3% Total Count 55 66 77 198 % within Gender 27.8% 33.3% 38.9% 100.0% % within Functgr 100.0% 100.0% 100.0% 100.0% % of Total 27.8% 33.3% 38.9% 100.0% Phương pháp Áp dụng Minh họa Chi – Square Contingency Test Quan hệ giữa 2 biến chỉ danh. Quan hệ giữa thu nhập (hoặc nghề nghiệp) với việc chọn nhãn hiệu bia. Hệ số tương quan Spearman Quan hệ giữa 2 biến thứ tự. Quan hệ giữa mức thưởng nhân viên bán hàng (mức 1, 2, 3, 4) và thành tích (mức 1, 2, 3, 4, 5). Hệ số tương quan Pearson Quan hệ giữa 2 biến metric (khoảng hay tỉ lệ). Quan hệ giữa tuổi của khách hàng và chi phí hàng tháng cho y tế. Hồi quy đơn giản Xây dựng một hàm tuyến tính giữa 2 biến metric (phụ thuộc nhau) Doanh thu (đồng) theo chi phí khuyến mãi. Chi – Square contingency test ¾ Mục đích: ƒ Xác định sự tồn tại mối quan hệ giữa 2 biến danh định. ¾ Yêu cầu: ƒ Không có ô nào có số lần xuất hiện kỳ vọng < 1 ƒ Không quá 1/5 tổng số ô có số lần xuất hiện < 5 ¾ Hạn chế: ƒ Chỉ xác định có quan hệ hay không, không cho biết mức độ quan hệ. Hệ số Contingency thường được bổ sung vào kiểm nghiệm Chi-Square để biết mức độ quan hệ giữa 2 biến. 2 2 χ χ += nc )1( 2 −= fnv χ C = 0: không có quan hệ C không có chặn trên Î khó diễn dịch V = 0: không có quan hệ V = 1: có quan hệ hoàn hảo Nên trong thực tế hay dùng hệ số thống kê Cramer Thí dụ: Kết quả khảo sát nhãn hiệu Bia ưa thích nhất phân theo mức thu nhập. Thu nhập Nhãn hiệu bia ưa thích nhất Tổng Bia A Bia B Bia C Thấp 50(109.38) 200 (101.56) 125 (164.06) 375 Trung bình 200(189.58) 100 (176.04) 350 (284.38) 650 Cao 100(51.04) 25 (47.40) 50 (76.56) 175 Tổng 350 325 525 1200 ` Ghi chú: Con số trong ngoặc chỉ giá trị kỳ vọng của mỗi ô trong bảng. Chúng được xác định theo tỉ lệ với tổng về thu nhập và loại bia ưa thích. (Ô 1-1 có giá trị kỳ vọng = 350 x 375 / 1200 = 109.38) Tính Kết quả : = 252.2 Df = (k-1)(l-1) = (3-1)(3-1) = 4 Nếu chọn α = 1% thì = 13.3 (tra bảng) = 252.2 > = 13.3 Æ loại Ho Æ Có sự khác biệt đáng kể giữa phân phối của mẫu và kỳ vọng (tổng thể) ∑∑ == −= k j ij ijijl i E EO 1 2 1 2 )(χ 2χ 2 Cχ 2χ 2Cχ Hệ số tương quan Spearman và Pearson ` Spearman: tương quan giữa 2 biến thứ tự (ordinal) ` Pearson: tương quan giữa các biến khoảng/ tỉ lệ. Hệ số tương quan r = 0Æ 1 (không kể dấu +/-) r > 0.8 rất mạnh r = 0.6 – 0.8 mạnh r = 0.4 – 0.6 có tương quan r = 0.2 – 0.4 tương quan yếu r < 0.2 không tương quan Lưu ý: ` Hai biến phải có phân phối chuẩn nhị biến. ` Phương sai của 1 biến tại bất kỳ giá trị nào của biến kia cũng phải bằng nhau. ` Khi r nhỏ không có nghĩa là không tương quan, mà chỉ không tương quan tuyến tính. ` Khi |r| lớn chỉ cho thấy mối tương quan, nhưng không xác định quan hệ nhân quả. ` Phân tích hồi quy tuyến tính đơn ◦ Phân tích 2 biến khoảng/ tỉ lệ: Hồi quy tuyến tính đơn Y = aX + b ◦ Sự khác biệt giữa hồi quy và tương quan Hồi quy tuyến tính Tạo ra một phương trình toán học liên kết các biến lại Tồn tại giả thiết nhân – quả: Biến độc lập – Biến phụ thuộc Tương quan Phát hiện ra mức độ tương quan giữa 2 biến Không có giả thiết về nhân quả Xử lý dữ liệu Phân tích đơn biến Phân tích nhị biến Tổng quan về phân tích đa biến Phân tích phụ thuộc • Xác định được biến nào là phụ thuộc, biến nào là độc lập • Bao gồm các phương pháp: phân tích hồi quy đa biến, ANOVA, Conjoint, Discriminant, Canonical analysis... Phân tích tương tác • Không xác định trước biến nào là phụ thuộc, biến nào là độc lập, chủ yếu là tìm kiếm các mô thức tương quan. • Bao gồm các phương pháp: Factor analaysis, Cluster, Multi-dimensional Scaling. Phân tích đa biến giúp giải quyết nhiều bài toán phức tạp. Tuy nhiên, mỗi phương pháp phân tích đa biến đều dựa trên một số giả thiết (ngầm)Æ cần thận trọng. Phương pháp Thang đo của biến Phụ thuộc Độc lập Một biến phụ thuộc Hồi quy bội Interval Interval ANOVA Interval Nominal Hồi quy bội - biến dummy Interval Nominal Discriminant analysis Nominal Interval Conjoint analysis Ordinal Nominal Các phương pháp phân tích phụ thuộc – Yêu cầu về thang đo Phương pháp Thang đo của biến Phụ thuộc Độc lập Hai biến phụ thuộc trở lên Canonical analysis Interval Interval MANOVA Interval Nominal Mạng lưới của nhiều biến phụ thuộc và độc lập Structural Equation Modeling (SEM) Interval Interval Các phương pháp phân tích phụ thuộc – Yêu cầu về thang đo ` HỒI QUY TUYẾN TÍNH BỘI y = a1X1 + a2X2 + a3X3 + ... anXn + b ™ Dạng mở rộng của hồi quy đơn. ™ Một biến phụ thuộc, nhiều biến độc lập. ™ Tất cả được đo bằng thang interval (ngoại lệ: dummy-variable multiple regression) Đánh giá mô hình và kết quả hồi quy theo 3 phần: ¾ Mức độ phù hợp của phương trình hồi quy: 9 Dùng hệ số r2 (coefficient of determination) 9 r2 = 0 ÷ 1 Î đặc trưng cho % của biến thiên trong biến phụ thuộc được giải thích do sự biến thiên của biến độc lập. ¾ Kiểm nghiệm mức ý nghĩa của r2: 9 Dùng F – test, với độ tự do: df = n – k – 1 cho mẫu số và df = k cho tử số (n: cỡ mẫu, k: số biến độc lập) ¾ Kiểm nghiệm mức ý nghĩa của các độ dốc ai: 9 Dùng t – test với độ tự do df = n – k – 1 ◦ Kiểm nghiệm các giả thuyết của phương pháp hồi quy Linearity Đa cộng tuyến (Multicolinearity) Phân phối chuẩn (Normality) của sai số và mỗi biến Sai số hồi quy có variance không đổi Tính độc lập của các sai số hồi quy Linearity ‰ Có mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập. ‰ Test: quan sát scatter diagram hoặc ma trận tương quan Đa cộng tuyến (Multicolinearity) ‰ Giả thuyết: các biến độc lập không có tương quan tuyến tính với nhau. ‰ Khi bị vi phạm Æ Có hiện tượng đa cộng tuyến, nghĩa là hiện hữu mối tương quan tuyến tính giữa ≥ 2 biến độc lập. ‰ Đa cộng tuyến gây ra: 9 Hạn chế giá trị r2 9 Sai lệch/ đổi dấu các hệ số hồi quy ‰ Test đa cộng tuyến: hệ số Tolerance hoặc VIF Một số lưu ý khi sử dụng multiple regression: ™ Phân tích hồi quy tuyến tính chỉ có nghĩa khi có tương quan TUYẾN TÍNH giữa các biến. ™ r2 không nói lên được quan hệ nhân quả giữa các biến ™ Có thể dự đoán sai nếu nằm ngoài khoản tính toán ™ Để đảm bảo độ tin cậy phải có nhiều hơn 10 điểm cho mỗi biến độc lập đưa vào phương trình (Æ yêu cầu cỡ mẫu) ™ Khoảng dao động (range) các biến có thể ảnh hưởng đến ý nghĩa phương trình hồi quy. ™ Trường hợp biến độc lập là nominal thì có thể sử dụng dummy-variable. Khi đó: ™ Số biến dummy = k-1; với k = số loại của biến nominal ™ Mỗi biến dummy chỉ nhận giá trị 0 hoặc 1 Thí dụ: Bài toán tìm các yếu tố quyết định sự thỏa mãn của nhân viên trong Cty XYZ. ‰ Biến phụ thuộc: sự thỏa mãn của nhân viên Cty. ‰ Biến độc lập: thu nhập, điều kiện làm việc, sự quan tâm của cấp trên, quan hệ với đồng nghiệp, cơ hội thăng tiến, cơ hội học tập, v.v.. Biến độc lập U n s t a n d a r d i z e d C o e f f i c i e n t s S t a n d a r d i z e d C o e f f i c i e n t s t Sig. Collinearity Statistics B Std. Error Beta Tolerance VIF (Constant) .540 .193 2.793 .007 Thu nhập .526 .081 .596 6.491 .000 .793 1.262 Sự quan tâm/ công nhận .205 .061 .310 3.380 .001 .793 1.262 r = 0.787 r2 = 0.619 F sig. = 0.000 ` ANOVA – ANALYSIS OF VARIANCE Mục đích Đặc điểm Áp dụng ` ANOVA – ANALYSIS OF VARIANCE Mục đích Đặc điểm Áp dụng ` ANOVA – ANALYSIS OF VARIANCE Mục đích Đặc điểm Áp dụng Khảo sát mối quan hệ giữa các biến độc lập và phụ thuộc ` ANOVA – ANALYSIS OF VARIANCE Mục đích Đặc điểm Áp dụng Tương tự như phân tích hồi quy, nhưng các biến độc lập là biến nonmetric (nominal/ ordinal) ` ANOVA – ANALYSIS OF VARIANCE Mục đích Đặc điểm Áp dụng So sánh giá trị trung bình của một thuộc tính (biến phụ thuộc/ thang metric) thể hiện ảnh hưởng của một hay nhiều thuộc tính khác (biến độc lập/thang nonmetric) ` ANOVA – ANALYSIS OF VARIANCE ™ Nếu có nhiều biến độc lập với thang chỉ danh gọi là Factorial ANOVA ™ Nguyên tắc: Nếu có sự khác biệt đáng kể giữa các nhóm thì “between-group variance > within-group variance” ™ ANCOVA: có xét đến các ảnh hưởng của một hay nhiều biến ngoại lai (gọi là control variable hoặc covariates - thang đo metric) và sẽ loại ra khỏi tập biến phụ thuộc trước khi phân tích ANOVA. ™ MANOVA nếu có nhiều biến phụ thuộc ™ MANCOVA có nhiều biến phụ thuộc và biến kiểm soát Thí dụ: ` Khảo sát 200 doanh nghiệp thuộc 3 ngành May mặc, Mỹ phẩm và Nhựa gia dụng về chi phí dành cho khuyến mãi hằng năm. ` Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩa thống kê giữa 3 ngành này về chi phí khuyến mãi không? Cty Ngành Chi phí KM (1000 USD) 1 2 3 4 . . 199 200 May May Mỹ phẩm Nhựa . . Nhựa May 123 235 1346 876 . . 68 12 Biến độc lập: ngành (chỉ danh) (3 treatments) Biến phụ thuộc: chi phí khuyến mãi (ratio) ` Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn Î số lượng so sánh sẽ rất lớn. ` Khi đó nên dùng ANOVA: ◦ H0 : μ1 = μ2 = ... = μk = μ ◦ Ha : có ít nhất 1 giá trị μi khác những giá trị kia. Với μ là trung bình của tổng thể ` DISCRIMINANT ANALYSIS Mục đích Đặc điểm Nguyên tắc Nhận ra những thuộc tính (các biến độc lập) để phân biệt các nhóm định trước của biến phụ thuộc Biến độc lập có thang metric, biến phụ thuộc có thang nonmetric. Hàm phân biệt có dạng: Y=v1.X1+v2.X2+v3.X3+… Sau khi tính được Y, so sánh với giá trị chuẩn Yc để biết đối tượng thuộc nhóm nào. Thí dụ: Công ty máy tính muốn biết xem thu nhập gia đình (X1) và số năm học ở trường của chủ hộ (X2) có phải là hữu ích trong việc phân biệt hộ có mua máy tính PC hay không. Khảo sát X1 và X2 của 2 nhóm mẫu ngẫu nhiên (có và không có PC). ` Biến độc lập: X1 – thu nhập, X2 – số năm học : metric ` Biến phụ thuộc: Có PC, Không có PC: category. ` Kết quả sẽ là hàm phân biệt: Y= v1X1 + v2X2 v1, v2 : trọng số phân biệt (hằng số) Y: điểm phân biệt So sánh Yi và Yc Î Phần tử i sẽ thuộc nhóm nào trong 2 nhóm mẫu trên. ` CONJOINT ANALYSIS Mục đích Áp dụng ` CONJOINT ANALYSIS Phân tích ảnh hưởng tổng hợp (joint effects) của 2 hay nhiều biến độc lập (thang nominal) lên một biến phụ thuộc (utility score - thang đo ordinal) Mục đích ` CONJOINT ANALYSIS Áp dụng Thường dùng trong test sản phẩm với nhiều yếu tố khác nhau (chất lượng, kiểu dáng, giá bán, nhãn hiệu, v.v.). Mỗi yếu tố có vài phương án khác nhau. Tìm xem tổ hợp nào được ưa thích nhất. ` CONJOINT ANALYSIS – ÁP DỤNG ‰ Nhà NC tạo ra một tập các phương án sản phẩm. Mỗi phương án là 1 tổ hợp của các yếu tố. ‰ Tập các phương án này được đưa cho đối tượng chọn/ xếp hạng (hoặc cho điểm thể hiện mức ưa thích). ‰ Conjoint analysis sẽ đánh giá ảnh hưởng của các utility score thành phần (hay part-worths, tượng trưng cho mức độ quan trọng của mỗi yếu tố) lên sự ưa thích tổng hợp (utility) đối với một sản phẩm. ` CONJOINT ANALYSIS – ÁP DỤNG ` Có thể dùng kết quả để Đánh giá thị phần của các nhãn hiệu trên thị trường Phân khúc thị trường Nhận dạng cơ hội thị trường cho một sản phẩm với tổ hợp thuộc tính mới Thí dụ: Thiết kế sản phẩm mới có 3 thuộc tính: ` Giá : (cao, trung bình, thấp) ` Kiểu dáng : (cao, trung bình, thấp) ` Chức năng : (đơn giản, phức tạp) ... Î Chỉ cần đánh giá 1 nhóm khoảng 8 tổ hợp (thay vì 18 tổ hợp) về tính hấp dẫn của sản phẩm đối với khách hàng. Thí dụ: Nhà nghiên cứu Tầm quan trọng của mỗi thuộc tính Tầm quan trọng của mỗi mức độ trong các thuộc tính Tạo ra sản phẩm có độ vị lợi cao nhất đối với người mua. Phân tích phụ thuộc Phân tích tương tác ` FACTOR ANALYSIS (PHÂN TÍCH NHÂN TỐ) Là phép rút gọn dữ liệu và biến bằng cách nhóm chúng lại với các nhân tố đại diện Điều kiện: các biến phải có thang đo metric • Xây dựng bộ thang đo Multiple – item • Xác định cấu trúc bộ dữ liệu • Giảm thứ nguyên trong tập dữ liệu, rút gọn dữ liệu Ứng dụng Thí dụ: Case X1 X2 X3 … … Xm 1 2 3 … n Factor analysis: gom m biến thành k factor Factor 1 gồm X1 X6 X9 Xm 2 gồm X2 X3 X10 Xm - 1 3 gồm X4 X5 X7 X8 ... Tùy mục đích bài toán, có thể dùng: Exploratory factor analysis (EFA) hoặc Confirmatory factor analysis (CFA) ` CLUSTER ANALYSIS (PHÂN TÍCH NHÓM) Mục tiêu Phân chia các đối tượng/ người thành các nhóm với các thành viên trong nhóm có các đặc trưng tương tự. Thí dụ: Bài toán phân khúc thị trường (Segmentation) Phân loại hành vi mua (Typology) ` CLUSTER ANALYSIS (PHÂN TÍCH NHÓM) Quá trình thực hiện Xác định các biến làm cơ sở để phân nhóm Phần chia các nhóm dựa trên sự tương tự Đặc tên nhóm dựa theo đặc điểm chung của các thuộc tính (các biến cơ sở) Chuẩn định (Validation) và mô tả đặc trưng (profiling) Thí dụ: Cluster analysis để phân khúc thị trường Yêu cầu thang đo: metric Công ty TICO: Xác định các Nhóm Khách Hàng khác nhau căn cứ trên hành vi mua. “Hãy đánh giá mức độ quan trọng của các yếu tố sau đây trong quyết định mua hàng của Ông/ Bà” 1 2 3 4 5 6 7 Không qtrọng Rất qtrọng X1 – Chất lượng sản phẩm X2 – Giá bánX3 – Thời gian giao hàng X4 – Uy tín nhà sản xuất X5 – Các dịch vụ đi kèm Thí dụ: Cluster analysis để phân khúc thị trường ` Hơn 300 khách hàng được khảo sát ` Nhận dạng ra các nhóm khác nhau. ` Trong mỗi nhóm có sự tương tự nhau về tầm quan trọng của các yếu tố (X1 Î X5) ảnh hưởng đến quyết định mua. Nhóm 1 Khách hàng trẻ, thu nhập cao, ở TP... Nhóm 2 Khách hàng công nghiệp – sản xuất Nhóm 1: X1, X4, X5 là quan trọng trong quyết định mua Nhóm 2: X1, X2, X3 là quan trọng. Î TICO sẽ có chiến lược tiếp thị đối với từng nhóm khách hàng khác nhau. MULTIDIMENTIONAL SCALING (perceptual mapping) ™ Mục đích: Xác định số lượng và bản chất của các thứ nguyên (dimensions) đặc trưng cho nhận thức/ đánh giá của khách hàng về các đối tượng. ™ Thang đo: Cả hai loại thang metric/nonmetric ™ Trong MR: Thường được sử dụng trong bài toán xác định vị trí tương đối (relative position) của các nhãn hiệu cạnh tranh nhau do phản hồi từ phía khách hàng. ™ Xác định những yếu tố đặc trưng cho việc đánh giá của khách hàng. ™ Là phương pháp ngược với Cluster Multidimentional Scaling • Phát hiện các thứ nguyên đặc trưng (Underlying Dimensions) từ các phản hồi Cluster Analaysis • Gộp các đối tượng thành các nhóm theo 1 số đặc tính tượng tự nhau KỸ THUẬT ĐO VÀ THU THẬP DỮ LIỆU

Các file đính kèm theo tài liệu này:

  • pdfchuong6_120714062617_phpapp02_1248.pdf