Thống kê ứng dụng - Chương 4: Tóm tắt và trình bày dữ liệu bằng đại lượng số

KHÁM PHÁ DL QUA BIỂU ĐỒ HỘP VÀ RÂU (BOX-AND-WHISKER PLOT) ● Bước 1: Vẽ hộp ● Xác định Q1, Q2, Q3 ● Vẽ hình hộp xung quanh ● Vẽ đường qua trung vị ● Bước 2: Vẽ râu trên ● Nếu x max – Q3 ≤ 1,5.IQR, thì râu trên = xmax ● Nếu x max – Q3 > 1,5.IQR, thì râu trên = Q3+1,5.IQR và vẽ 1 dấu chấm/sao ở vị trí xmax ● Bước 3: Vẽ râu dưới ● Nếu Q1 - xmin ≤ 1,5.IQR, thì râu dưới = xmin ● Nếu Q1 - xmin > 1,5.IQR, thì râu dưới = Q1 – 1,5.IQR và vẽ thêm 1 dấu chấm/sao ở vị trí xmin ● Giá trị ngoại lệ: cách mép trên (Q3) hoặc mép dưới (Q1) hộp hơn 1,5 IQR ● Giá trị cực đoan: cách mép trên (Q3) hoặc mép dưới (Q1) hộp hơn 3.IQR

pdf26 trang | Chia sẻ: nhung.12 | Lượt xem: 4192 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Thống kê ứng dụng - Chương 4: Tóm tắt và trình bày dữ liệu bằng đại lượng số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
CHƯƠNG 4 TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ ThS. Nguyễn Tiến Dũng Bộ môn Quản trị Kinh doanh, Viện Kinh tế và Quản lý Email: dung.nguyentien3@hust.edu.vn MỤC TIÊU CỦA CHƯƠNG ● Sau khi kết thúc chương này, người học có thể: ● Kể tên và biết cách tính các đại lượng đặc trưng cho độ tập trung: trung bình, trung vị, mốt, tứ phân vị, phân vị ● Nói tên và biết cách tính các đại lượng đặc trưng cho độ phân tán của tập DL: khoảng biến thiên, độ trải giữa, phương sai và độ lệch chuẩn ● Nắm được ý nghĩa của hệ số biến thiên ● Phát biểu được quy tắc thực nghiệm và quy tắc Chebysev về quy luật phân phối của tập DL ● Biết cách vẽ và khám phá đặc điểm của tập DL qua biểu đồ hộp và râu ● Phân biệt được các tham số tổng thể và tham số mẫu © Nguyễn Tiến Dũng 2Thống kê ứng dụng CÁC NỘI DUNG CHÍNH 4.1 Các đại lượng đo lường độ tập trung và phương pháp mô tả hình dáng tập DL 4.2 Các đại lượng đo lường độ phân tán 4.3 Các đại lượng TK mô tả cho bảng tần số 4.4 Các đại lượng TK mô tả cho tổng thể 4.5 Khám phá DL qua biểu đồ hộp và râu (box plot) 4.6 Sử dụng kết hợp TB và độ lệch chuẩn 4.7 Phân biệt một số cặp khái niệm © Nguyễn Tiến Dũng 3Thống kê ứng dụng 4.1 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG VÀ PHƯƠNG PHÁP MÔ TẢ HÌNH DÁNG TẬP DỮ LIỆU ●4.1.1 Các ĐL đo lường độ tập trung phổ biến ●4.1.2 Sử dụng Excel để tính các ĐL TK mô tả độ tập trung ●4.1.3 Nhóm các ĐL khác mô tả sự phân bố của tập DL ●4.1.4 Hình dáng của phân phối © Nguyễn Tiến Dũng 4Thống kê ứng dụng 4.1.1 Các ĐL đo lường độ tập trung phổ biến ●4.1.1.1 Trung bình cộng (arithmetic mean) ●4.1.1.2 Trung vị (Median) ●4.1.1.3 Mốt (Mode) ●4.1.1.4 Trung bình nhân (geometric mean) © Nguyễn Tiến Dũng 5Thống kê ứng dụng 4.1.1.1 Trung bình cộng ●TB cộng đơn giản ●TD: ● Điểm của 3 HP gần đây (mỗi HP 3 tín chỉ) là x1 = 6; x2 = 7; và x3= 9. ● Điểm TB của 3 HP nói trên © Nguyễn Tiến Dũng 6 1 1 n i i x x n    6 7 9 22 7,333 3 3 x      Thống kê ứng dụng Trung bình cộng (tiếp) ●Trung bình cộng có trọng số ●TD: Điểm của 3 HP của 1 SV là như sau: © Nguyễn Tiến Dũng 7 1 1 n i i i n i i w x x w     Học phần Số tín chỉ Điểm HP Thống kê 3 6 Anh văn 2 7 Marketing 4 9 3 6 2 7 4 9 68 7,556 3 2 4 9 x           Thống kê ứng dụng 4.1.1.2 Trung vị (Median) ● Giá trị của quan sát đứng giữa dãy DL đã sắp xếp ● Thông thường: sắp xếp từ nhỏ tới lớn (theo thứ tự tăng dần) ● x1 x2 xn ● Me = x(n+1)/2 ● n = 2k +1  Me = xk+1 ● n = 2k  Me = 0,5.(xk + xk+1) ● TD: © Nguyễn Tiến Dũng 8 i xi 1 10 2 2 3 4 4 7 5 5 6 2 Thống kê ứng dụng 4.1.1.3 Mốt (Mode) ●Giá trị của quan sát có tần số lớn nhất ●TD ● 1 1 2 3 3 4 4 4 5 5 6 6  Mo = 4 ● 1 1 2 3 4 4 4 5 5 6 6 6  Mo = 4; 6 ● 1 1 2 2 3 3 4 4 5 5 6 6  Không có mode ●Số lượng mode của một tập DL: 1, nhiều hoặc 0. © Nguyễn Tiến Dũng 9Thống kê ứng dụng 4.1.1.4 Trung bình nhân ●Ứng dụng: tính tốc độ phát triển bình quân ●TD: Doanh thu của một DN © Nguyễn Tiến Dũng 10 1 2 1 ...n n n x x x x x Thống kê ứng dụng t 0 (2011) 1 (2012) 2 (2013) 3 (2014) Dt 100 110 140 145 xt - 1,100 1,273 1,036 33 1 2 3 1,100 1, 273 1,036 1,132x x x x     4.1.2 Sử dụng Excel để tính các đại lượng TK mô tả độ tập trung Mean 26,933 Standard Error 0,927 Median 27 Mode 21 Standard Deviation 5,078 Sample Variance 25,789 Kurtosis -0,127 Skewness 0,533 Range 20 Minimum 19 Maximum 39 Sum 808 Count 30 Confidence Level(95,0%) 1,896 © Nguyễn Tiến Dũng 11 ● Dùng hàm trực tiếp trong Excel: ● Data Analysis  Descriptive Statistics ● Dùng MegaStat Thống kê ứng dụng Độ lệch (Skewness) và Độ nhọn (Kurtosis) của phân phối © Nguyễn Tiến Dũng Applied Statistics for Business 12 Lệch trái Đối xứng Lệch phải Xẹp Chuẩn Nhọn 4.1.3 Nhóm các đại lượng khác mô tả sự phân bố của tập dữ liệu ●4.1.3.1 Tứ phân vị (quartiles) ● Dãy DL đã sắp xếp tăng dần: x1 < x2 < < xn © Nguyễn Tiến Dũng 13Thống kê ứng dụng Tính các tứ phân vị: BT tại lớp ●Theo SGK ● Q1 = xq1 q1 = (n+1)/4 ● Q2 = xq2 q2 = (n+1)/2 ● Q3 = xq3 q3 = 3.(n+1)/4 ●Theo GV và Excel ● Q1 = xq1 q1 = (n+3)/4 ● Q2 = xq2 q2 = (n+1)/2 ● Q3 = xq3 q3 = (3n+1)/4 © Nguyễn Tiến Dũng 14 i xi 1 2 2 2 3 4 4 5 5 7 6 10 Thống kê ứng dụng 4.1.3.2 Phân vị / Bách phân vị (percentiles) ● Dãy DL đã sắp xếp tăng dần: x1 ≤ x2 ≤ ≤ xn ● Phân vị thứ K (PK): giá trị của quan sát thứ k, mà chia dãy DL làm 2 phần, trong đó có K% quan sát đứng phía dưới của phân vị này ● PK = xk ● Theo SGK: ● Theo GV và Excel: ● Thí dụ: Tính ● Phân vị thứ 25: P25 = Q1 = ? ● Phân vị thứ 50: P50 = Q2 = ? ● Phân vị thứ 75: P75 = Q3 = ? ● Phân vị thứ 60: P60 = ? © Nguyễn Tiến Dũng 15 ( 1) 100 K k n         ( 1) 1 100 K k n          Thống kê ứng dụng 4.2 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN ● 4.2.1 Khoảng biến thiên (Range): R = xmax - xmin ● 4.2.2 Độ trải giữa (InterQuartile Range) IQR = Q3 – Q1 ● 4.2.3 Phương sai và độ lệch chuẩn của mẫu © Nguyễn Tiến Dũng 16 2 2 1 ( ) 1 n i i x x s n      2 2 1 ( ) 1 n i i x x s s n       Thống kê ứng dụng 4.3 CÁC ĐẠI LƯỢNG TK MÔ TẢ CHO BẢNG TẦN SỐ (DỮ LIỆU ĐÃ PHÂN TỔ) ● 4.3.1 Trung bình cộng ● 4.3.2 Trung vị ● 4.3.3 Mốt ● 4.3.4 Phương sai và độ lệch chuẩn ● Tính tương tự công thức lý thuyết đối với DL không phân tổ ● Lưu ý về tần số và giá trị đại diện của mỗi tổ ● TD: Quay lại TD về tính tuổi của 30 SV -> tính GTTB theo 2 cách: Cách 1 là tính từ tập DL gốc. Cách 2 là tính dựa trên DL đã phân thành 4 tổ. So sánh kết quả© Nguyễn Tiến Dũng 17Thống kê ứng dụng 4.4 CÁC ĐẠI LƯỢNG TK MÔ TẢ CHO TỔNG THỂ ●4.4.1 TB cộng của tổng thể ●4.4.2 Phương sai và độ lệch chuẩn của tổng thể ● Phương sai tổng thể ● Độ lệch chuẩn tổng thể © Nguyễn Tiến Dũng 18 1 1 N i i x N     2 2 1 ( ) N i i x N       2 2 1 ( ) N i i x N         Thống kê ứng dụng 4.5 KHÁM PHÁ DL QUA BIỂU ĐỒ HỘP VÀ RÂU (BOX-AND-WHISKER PLOT) ● Bước 1: Vẽ hộp ● Xác định Q1, Q2, Q3 ● Vẽ hình hộp xung quanh ● Vẽ đường qua trung vị ● Bước 2: Vẽ râu trên ● Nếu xmax – Q3 ≤ 1,5.IQR, thì râu trên = xmax ● Nếu xmax – Q3 > 1,5.IQR, thì râu trên = Q3+1,5.IQR và vẽ 1 dấu chấm/sao ở vị trí xmax ● Bước 3: Vẽ râu dưới ● Nếu Q1 - xmin ≤ 1,5.IQR, thì râu dưới = xmin ● Nếu Q1 - xmin > 1,5.IQR, thì râu dưới = Q1 – 1,5.IQR và vẽ thêm 1 dấu chấm/sao ở vị trí xmin ● Giá trị ngoại lệ: cách mép trên (Q3) hoặc mép dưới (Q1) hộp hơn 1,5 IQR ● Giá trị cực đoan: cách mép trên (Q3) hoặc mép dưới (Q1) hộp hơn 3.IQR © Nguyễn Tiến Dũng 19Thống kê ứng dụng Biểu đồ hộp và râu: So sánh lương khởi điểm của những người mới ra trường © Nguyễn Tiến Dũng 20Thống kê ứng dụng 4.6 SỬ DỤNG KẾT HỢP GIÁ TRỊ TRUNG BÌNH VÀ ĐỘ LỆCH CHUẨN ●4.6.1 Hệ số biến thiên CV ●4.6.2 Quy tắc thực nghiệm ●4.6.3 Quy tắc Chebysev ●4.6.4 Chuẩn hoá dữ liệu © Nguyễn Tiến Dũng 21Thống kê ứng dụng 4.6.1 Hệ số biến thiên CV ●Thước đo mức độ phân tán tương đối của một tập dữ liệu © Nguyễn Tiến Dũng 22 100%CV     100% s CV x  hoặc Thống kê ứng dụng ● Thí dụ Trang 95 ● 2 danh mục đầu tư / cổ phiếu ●Cổ phiếu A: µA = 16%; A = 4% ●Cổ phiếu B: µB =9%; B =3% ●Cổ phiếu nào có sự biến thiên về tỷ suất lợi nhuận nhiều hơn? 4.6.2 Quy tắc thực nghiệm ● Với phân phối đối xứng, có khoảng ● 68% quan sát (điểm dữ liệu) rơi vào µ± ● 95% quan sát (điểm dữ liệu) rơi vào µ± 2 ● 99,7% quan sát (điểm dữ liệu) rơi vào µ± 3 © Nguyễn Tiến Dũng 23Thống kê ứng dụng 4.6.3 Quy tắc Chebysev ● Với một phân phối bất kỳ, luôn có ít nhất (1-1/k2).100% quan sát rơi vào khoảng µ± k. (k>1) © Nguyễn Tiến Dũng 24 1821 - 1894 Thống kê ứng dụng 4.6.4 Chuẩn hoá dữ liệu ● Biến X ~ N(µ; 2)  Z ~ N(0; 12) hoặc ● Biến X ~ N( 𝑥; 𝑠2) Z ~ N(0; 12) ●z-score: ● lệch mấy lần độ lệch chuẩn tính từ GT TB © Nguyễn Tiến Dũng 25 i i x z     i i x x z s   Thống kê ứng dụng 4.7 PHÂN BIỆT MỘT SỐ CẶP KHÁI NIỆM ●Tham số tổng thể và tham số mẫu ● Tham số tổng thể: µ, 2, , p ● Tham số mẫu: 𝑥, s2, s, ps ●Biến thiên và độ lệch chuẩn ● Biến thiên: sự sai lệch giữa giá trị quan sát với TB ● ĐLC: thước đo tổng hợp về sự biến thiên © Nguyễn Tiến Dũng 26Thống kê ứng dụng

Các file đính kèm theo tài liệu này:

  • pdftkud2015_ch04_9441.pdf
Tài liệu liên quan