Bài giảng Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế

Chỉ số tổng hợp giá cả • CS tổng hợp, biểu hiện biến động của các phần tử trong hiện tượng phức tạp được chuyển về dạng đồng nhất để có thể cộng trực tiếp với nhau, dựa trên cơ sở mối quan hệ giữa yếu tố nghiên cứu với yếu tố khác có liên quan. Ví dụ như khối lượng các sản phẩm khác loại vốn không thể cộng trực tiếp với nhau do khác đơn vị tính khi được chuyển sang dạng giá trị, bằng cách nhân với yếu tố giá cả, thì có thể cộng được với nhau. • CS tổng hợp đánh giá sự thay đổi của một số hoặc tất cả các phần tử thuộc tổng thể nghiên cứu. Trong chỉ số tổng hợp, có quyền số (trọng số) đó là yếu tố được chọn để giúp chuyển các phần tử không thể cộng trực tiếp với nhau thành một dạng chung có thể cộng được, quyền số thể hiện vai trò của từng phần tử trong toàn bộ tổng thể. • Quyền số có thể được chọn ở các kỳ khác nhau (có khi là kì gốc, có khi là kì báo cáo, có khi là một kỳ nào đó phù hợp) là tùy theo mục đích nghiên cứu.

pdf86 trang | Chia sẻ: truongthinh92 | Lượt xem: 4553 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
0 1 2 3 4 5 6 7 8 9 10 50 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 26 Đo lường khuynh hướng tập trung 2. Trung vị (median) • Tính trung vị Số quan sát lẻ Số quan sát chẵn Tính từ tài liệu phân tổ 2 xx M 1 2 n 2 n e + + = Me = X(n+1)/2 Me 1Me Me(min)Mee f S 2 n hxM − − += 51 Đo lường khuynh hướng tập trung 2. Trung vị (median) • Số trung vị không chịu ảnh hưởng bởi các trị số bất thường (outliers) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Me = 5 Me = 5 52 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 27 Đo lường khuynh hướng tập trung 3. Mốt (mode) • Đo lường khuynh hướng tập trung • Mode là giá trị có tần số lớn nhất • Mode không chịu ảnh hưởng bởi các giá trị đột biến • Một dãy số có thể có nhiều Mode • Một dãy số có thể không có Mode • Mode có thể xác định cho dữ liệu định tính 53 Đo lường khuynh hướng tập trung 3. Mốt (mode) Tính Mode từ dữ liệu đã phân tổ: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode có hai trị số: 9 và 12 0 1 2 3 4 5 6 Không có Mode )ff()ff( ff hxMode 1MM1MM 1MM M(min)Mo 0000 00 0 +− − −+− − += 54 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 28 Đo lường khuynh hướng tập trung 4. Trung bình nhân/ trung bình hình học (geometric mean) • Áp dụng cho các trị số có quan hệ tích số • Dùng để tính tốc độ phát triển trung bình từ các số tương đối động thái n n321 x...x.x.xx = 55 Các thước đo vị trí khác Other Measures of Location Percentiles Phân vị Quartiles Tứ phân vị  1st quartile = 25th percentile  2nd quartile = 50th percentile = median  3rd quartile = 75th percentile The pth percentile in a data array: • p% are less than or equal to this value • (100 – p)% are greater than or equal to this value (where 0 ≤ p ≤ 100) 56 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 29 Các thước đo vị trí khác • Phân vị thứ p trong một tập dữ liệu có n trị số là trị số ở vị trí thứ I được định nghĩa như sau:  Ví dụ: Phân vị thứ 60 trong một tập dữ liệu có 19 trị số quan sát là trị số ở vị trí thứ 12: 1)(n 100 pi += 121)(19 100 601)(n 100 pi =+=+= Phân vị (percentile) 57 Các thước đo vị trí khác Tứ phân vị (quartile) • Tứ phân vị chia tập dữ liệu đã xếp thứ tự thành 4 nhóm có số lượng trị số bằng nhau. 25% 25% 25% 25% Tập dữ liệu đã xếp thứ tự: 11 12 13 16 16 17 18 21 22  Ví dụ: tìm tứ phân vị thứ nhất (n = 9) Q1 = phân vị thứ 25, do đó (9+1) = 2.5 position Vì vậy sử dụng trị số ở giữa vị trí 2 và vị trí 3: Q1 = 12.5 25 100 Q1 Q2 Q3 58 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 30 Minimum 1st Median 3rd Maximum Quartile Quartile Các thước đo vị trí khác Biểu đồ hộp và râu (Box and whisker plot) Là công cụ đồ học thể hiện 5 số trị số tóm tắt : Minimum -- Q1 -- Median -- Q3 -- Maximum Hình hộp và đường trung tâm ở ngay vị trí chính giữa cho thấy dữ liệu đối xứng quanh trung vị Minimum 1st Median 3rd Maximum Quartile Quartile 25% 25% 25% 25% 59 Đo lường độ phân tán/biến thiên Same center, different variation 60 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 31 Đo lường độ phân tán/biến thiên Variation Variance Standard Deviation Coefficient of Variation Population Variance Sample Variance Population Standard Deviation Sample Standard Deviation Range Interquartile Range 61 Đo lường độ phân tán/biến thiên Biến thiên Phương sai Độ lệch chuẩn Hệ số biến thiên Phương sai tổng thể Phương sai mẫu Độ lệch chuẫn tổng thể Độ lệch chuẩn mẫu Khoảng biến thiên Độ trải giữa 62 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 32 Đo lường độ phân tán/biến thiên 1. Khoảng biến thiên: 2. Độ trải giữa: 3. Phương sai: 4. Độ lệch chuẩn: 5. Hệ số biến thiên: Sử dụng CV khi so sánh 2 tập dữ liệu có đơn vị tính khác nhau hay trung bình chênh lệch nhau nhiều minmax xxR −= RI = Q3 - Q1 ( ) N x N i i 2 12 ∑ = − = µ σ 1 )( 1 2 2 − − = ∑ = n xx s n i i 2σσ = 1 )( 1 2 − − = ∑ = n xx s n i i %100.µ σ =CV %100 x sCV = 63 Đo lường độ phân tán/biến thiên Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 11 12 13 14 15 16 17 18 19 20 21 Data B Data A Mean = 15.5 s = .9258 11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = 4.57 Data C 64 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 33 Đo lường độ phân tán/biến thiên Quy tắc thực nghiệm • Đối với những tổng thể lớn, phân phối của các giá trị có dạng gần giống hình chuông cân đối (có thể dùng đồ thị Histogram để xem xét), phân phối chuẩn được sử dụng để mô tả hình dáng của phân phối. 65 Đo lường độ phân tán/biến thiên Quy tắc Tchebychev • Bất kỳ một tổng thể nào với trung bình là µ và độ lệch tiêu chuẩn là σ, thì có ít nhất 100(1-1/m2)% giá trị rơi vào khoảng µ ± mσ, với m > 1. m 1,5 2 2,5 3 100(1-1/m2)% 55,6% 75% 84% 88,9% 66 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 34 Hình dáng phân phối của tập dữ liệu Chap 3-67 Mean = Median = ModeMean < Median < Mode Mode < Median < Mean Right-SkewedLeft-Skewed Symmetric (Longer tail extends to left) (Longer tail extends to right) Diễn tả dữ liệu được phân phối như thế nào Đối xứng hay lệch Lệch phảiLệch trái Đối xứng Hình dáng phân phối của tập dữ liệu Diễn tả dữ liệu được phân phối như thế nào Đối xứng hay lệch Right-SkewedLeft-Skewed Symmetric Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3 68 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 35 Chuẩn hóa dữ liệu Chuyển các dữ liệu với đo vị đo lường thực tế về đơn vị đo lường là độ lệch chuẩn. Khi có nhiều biến số có đơn vị tính khác nhau, chuẩn hóa dữ liệu giúp so sánh được biến thiên của chúng Với dữ liệu của tổng thể: Với dữ liệu của mẫu quan sát: σ µx z − = s xx z − = 69 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 5 ƯỚC LƯỢNG THỐNG KÊ Hoàng Trọng Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 36 Ước lượng điểm & ước lượng khoảng 71 • Ước lượng điểm: ước lượng bằng 1 trị số • Ước lượng khoảng: ước lượng bằng 1 khoảng trị số, gọi là khoảng tin cậy, có thêm thông tin về khả năng biến thiên Point Estimate Lower Confidence Limit Upper Confidence Limit Width of confidence interval Ước lượng điểm Chúng ta có thể ước lượng tham số tổng thể với 1 trị số của mẫu (UL điểm) Trung bình Tỷ lệ pp xμ Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 37 Ước lượng khoảng • Ước lượng khoảng có tính tới biến thiên của tham số mẫu từ mẫu này so với mẫu khác. • Chỉ dựa vào một mẫu quan sát • Cho biết thông tin về tham số tổng thể có thể có trị số trong khoảng ước lượng, và không bao giờ chắc chắn được 100% Ước lượng khoảng • Công thức chung của ước lượng khoảng • Hệ số tin cậy suy từ độ tin cậy mong muốn • Ví dụ với độ tin cậy 95% (1 – α) =0,95, từ bảng phân phối chuẩn hệ số tin cậy là 1,96 Point Estimate ± (Critical Value) x (Standard Error) UL điểm ± (hệ số tin cậy) x (Sai số chuẩn) Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 38 Ước lượng khoảng • Ước lượng khoảng tham số của 1 tổng thể Population Mean σ Unknown Confidence Intervals Population Proportion σ Known n stx /2α± n σ zx α/2± n )p(p zp /2 − ± α 1 Ước lượng khoảng • Ước lượng khoảng khác biệt tham số giữa 2 tổng thể Mean difference paired samples Difference Proportion difference independent samples Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 39 Ước lượng khoảng • Ước lượng khoảng khác biệt tham số giữa 2 tổng thể y 2 y x 2 x 2/yx y 2 y x 2 x 2/ nn z)yx( nn z)yx( σ+σ+−≤µ−µ≤σ+σ−− αα n s td - n s t-d d2/,1-nyxd2/,1-n αα +≤µµ≤ Mean difference paired samples Difference Proportion difference independent samples Ước lượng khoảng • Ước lượng khoảng khác biệt tham số giữa 2 tổng thể Mean difference paired samples Difference Proportion difference independent samples yn ypyp xn xpxpzypxpyPxP yn ypyp xn xpxpzypxp )ˆ1(ˆ)ˆ1(ˆ 2/)ˆˆ( )ˆ1(ˆ)ˆ1(ˆ 2/)ˆˆ( − + − +−≤−≤ − + − −− αα Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 40 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ Hoàng Trọng Giả thuyết không và giả thuyết đối H0: ϴ ≥ ϴo H1: ϴ < ϴo 0 H0: ϴ ≤ ϴo H1: ϴ > ϴo H0: ϴ = ϴo H1: ϴ ≠ ϴo α α /2 Represents critical value Lower tail test Level of significance = α α 0 0 α/2α Upper tail test Two tailed test Rejection region is shaded Điều chúng ta muốn chứng minh là đúng được đặt làm giả thuyết đối Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 41 Hai loại sai lầm State of Nature Decision Do Not Reject H 0 No error (1 - )α Type II Error ( β ) Reject H 0 Type I Error ( )α Possible Hypothesis Test Outcomes H0 FalseH0 True Key: Outcome (Probability) No Error ( 1 - β )  Sai lầm loại I và sai lầm loại II không thể xảy ra cùng 1 lúc  Sai lầm loại I chỉ xảy ra nếu H0 đúng  Sai lầm loại II chỉ xảy ra nếu H0 sai Nếu xác suất phạm sai lầm loại I error probability ( α ) tăng lên thì xác suất phạm sai lầm loại II ( β ) giảm Các bước thực hiện kiểm định 1. Xác định tổng thể muốn nghiên cứu 2. Xây dựng giả thuyết không và giả thuyết đối 3. Xác định mức ý nghĩa 4. Xác định miền bác bỏ 5. Thu thập dữ liệu và tính toán đại lượng kiểm định 6. Quyết định bác bỏ hay chấp nhận giả thuyết, kết luận Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 42 Kiểm định GT về trung bình tổng thể σ Known Large Samples σ Unknown Hypothesis Tests for µ Small Samples σ Known Large Samples σ Unknown Hypothesis Tests for µ Small Samples The test statistic is: n σ µx z − = Kiểm định GT về trung bình tổng thể Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 43 σ Known Large Samples σ Unknown Hypothesis Tests for µ Small Samples The test statistic is: n s µxt 1n − = − But is sometimes approximated using a z: n σ µx z − = Kiểm định GT về trung bình tổng thể Large Samples σ Unknown Hypothesis Tests for µ Small Samples The test statistic is: n s µxt 1n − = − (The population must be approximately normal) σ Known Kiểm định GT về trung bình tổng thể Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 44 Quy tắc quyết định: Kiểm định GT về trung bình tổng thể Giả thuyết Bác bỏ Ho khi: Ho : µ = µo H1 : µ ≠ µo t > tn-1,α/2 hoặc t < -tn-1, α/2 hay > tn-1,α/2 Ho : µ = µo hoặc Ho: µ ≥ µo H1 : µ < µo t < -tn-1, α Ho : µ = µo hoặc Ho: µ ≤ µo H1 : µ > µo t > tn-1, α t Kiểm định trung bình dùng giá trị p (P value): • Sau khi tính được đại lượng thống kê dùng để kiểm định (thường là z hay t), dùng bảng tra hay hàm trên chương trình máy tính tính tra ngược ra giá trị p • Giá trị p là xác suất tính ra được trị số của đại lượng kiểm định vượt quá ( ≤ hay ≥ ) trị số của mẫu quan sát nếu như Ho đúng. • Giá trị p là mức ý nghĩa nhỏ nhất mà ở đó giả thuyết Ho bị bác bỏ, hay nói một cách đơn giản, giá trị P là xác suất phạm sai lầm khi bác bỏ Ho • Kết quả xử lý số liệu bằng máy tính thường luôn thể hiện giá trị p • Nếu qui định trước mức ý nghĩa α thì có thể dùng p-value để kết luận theo α. Khi đó nguyên tắc kiểm định như sau: – Nếu p-value < α thì bác bỏ Ho, thừa nhận H1. – Nếu p-value ≥ α thì chưa có cơ sở để bác bỏ Ho. Kiểm định GT về trung bình tổng thể Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 45 Kiểm định GT về tỷ lệ tổng thể • Dùng cho các dữ liệu phân loại, có 2 khả năng: – “thành công” nếu có đặc điểm – “thất bại” nếu không có đặc điểm • Tỷ lệ thành công trong tổng thể được ký hiệu là p • Tỷ lệ thành công trong mẫu được ký hiệu là ̂ hay ̅ Khi cở mẫu đủ lớn n ̅ và n(1- ̅) ít nhất là 5, ̅ có thể được xấp xỉ bởi phân phối bình thường với trung bình và độ lệch chuẩn là Phân phối của ̅ là bình thường nên đại lượng kiểm định là đại lượng z mau co mau trongcong thanhso n xp == pµP = n p)p(1 σp − = n )p(p pp z − − = 1 Kiểm định GT về tỷ lệ tổng thể Quy tắc quyết định: Giả thuyết Bác bỏ Ho khi: Ho : p = po H1 : p ≠ po z > zα/2 hoặc z < -zα/2 hay Ho : p = po hoặc Ho: p ≥ p0 H1 : p < po z < -zα Ho : p = po hoặc Ho: p ≤ p0 H1 : p > po z > zα 2/zz α> Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 46 Kiểm định GT về khác biệt hai TB Mean difference paired samples Difference Proportion difference independent samples nyn Dyx z 2 y x 2 x 0 σ + σ −− = ) n 1 n 1(s Dyx t yx 2 0 + −− = Đại lượng quyết định: Kiểm định GT về khác biệt hai TB Quy tắc quyết định: Giả thuyết Bác bỏ Ho khi: Ho : µx - µy = D0 H1 : µx - µy ≠ D0 t > Hoặc t < - Hay > Ho : µx - µy = D0 hoặc Ho: µx - µy ≥ D0 H1 : µx - µy < D0 t < - Ho : µx - µy = D0 hoặc Ho: µx - µy ≤ D0 H1 : µx - µy > D0 t > /2 ,2n n yxt α−+ t α−+ ,2n n yxt /2 ,2n n yxt α−+ /2 ,2n n yxt α−+ α−+ ,2n n yxt Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 47 Kiểm định GT về khác biệt hai tỷ lệ Mean difference paired samples Difference Proportion difference independent samples         +− − = yx oo yx n 1 n 1)pˆ1(pˆ pˆpˆ z yx yyxx o nn pˆnpˆn pˆ + + = Đại lượng quyết định: Kiểm định GT về khác biệt hai tỷ lệ Quy tắc quyết định: Gỉa thuyết Bác bỏ Ho khi: Ho : px - py = 0 H1 : px - py ≠ 0 z > zα/2 hoặc z < - zα/2 Hay Ho : px - py = 0 hoặc Ho: px - py ≥ 0 H1 : px - py < 0 z < -zα Ho : px - py = 0 hoặc Ho: px - py ≤ 0 H1 : px - py > 0 z > zα 2/zz α> Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 48 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 7 ĐIỀU TRA CHỌN MẪU Hoàng Trọng 96 • ĐTCM là một loại điều tra không toàn bộ, trong đó chỉ chọn ra một số đơn vị từ tổng thể chung để điều tra thực tế, rồi sau đó tính toán suy rộng cho toàn bộ tổng thể. • Ưu điểm: tiết kiệm chi phí, thời gian, hạn chế sai số thô • Hạn chế: – có sai số chọn mẫu (sai số do tính đại diện) – Không thay thế được ĐT toàn bộ khi cần số liệu chi tiết của từng đơn vị. Khái niệm ĐTCM Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 49 97 • sai số phi chọn mẫu • sai số chọn mẫu (margin of error): – Khi ước lượng trung bình tổng thể, sai số chọn mẫu trung bình (statndard error) là: – Khi ước lượng tỷ lệ sai số chọn mẫu trung bình là: – Trường hợp chọn mẫu không hoàn lại, sai số trung bình sẽ nhân thêm với hệ số điều chỉnh tổng thể hữu hạn: Sai số trong ĐTCM nn 2 x σ = σ =σ n )p-1(p pˆ =σ N n -1FPC = 98 • Phạm vi sai số chọn mẫu với độ tin cậy xác định: • Khi ước lượng trung bình tổng thể, sai số chọn mẫu là: • Khi ước lượng tỷ lệ sai số trung bình là Sai số trong ĐTCM Point Estimate ± (Critical Value) x (Standard Error) UL điểm ± (hệ số tin cậy) x (Sai số chuẩn) n zz 2/x2/x σ =σ=ε αα n )p-1(p zz 2/Pˆ2/p αα =σ=ε Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 50 Quy trình nghiên cứu bằng ĐTCM Xác định cỡ mẫu Kích thước mẫu n phụ thuộc vào các yếu tố sau: • Phương pháp chọn mẫu sẽ được tiến hành theo phương pháp nào • xác định phạm vi sai số có thể chấp nhận được (ε) • Quy định độ tin cậy muốn có trong ước lượng • Xác định hệ số tin cậy z từ độ tin cậy mong muốn • Ước tính độ lệch chuẩn của tổng thể Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 51 Xác định cỡ mẫu Khi nghiên cứu để ước lượng trung bình: Chọn hoàn lại Chọn không hoàn lại Khi nghiên cứu để ước lượng tỷ lệ: 2 x 22 2/zn ε σ = α 22 2/ 2 x 22 2/ zN Nz n σ+ε σ = α α 2 p 2 2/α ε pqz n = pqzNε pqNz n 2 2/α 2 p 2 2/α + = Xác định cỡ mẫu • Phạm vi sai số có thể chấp nhận ε : xác định căn cứ vào khả năng thực hiện (thời gian, chi phí) và kinh nghiệm • Hệ số tin cậy z: xác định dựa vào độ tin cậy mong muốn căn cứ vào khả năng thực hiện và ý nghĩa thực tế của ước lượng • Độ lệch chuẩn: – sử dụng độ lệch tiêu chuẩn của lần điều tra trước. Nếu trước đây đã tiến hành nhiều lần điều tra, có thể lấy độ lệch tiêu chuẩn lớn nhất. – tiến hành điều tra thí điểm để tính độ lệch tiêu chuẩn. – nếu hiện tượng nghiên cứu có phân phối chuẩn thì có thể ước tính độ lệch tiêu chuẩn theo khoảng biến thiên r có thể xảy ra: 6 x -x 6 R minmax ==σ Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 52 Chọn mẫu ngẫu nhiên đơn giản • Mỗi đơn vị của tổng thể được chọn với sự ngẫu nhiên như nhau (được chọn vào mẫu với cơ hội/ xác suất bằng nhau) • Phải có danh sách các đơn vị của tổng thể cần nghiên cứu và khảo sát (khung mẫu hay dàn chọn mẫu, sampling frame). Các đơn vị này có thể được sắp xếp theo một trật tự nào đó, ví dụ như theo vần ABC, theo quy mô, theo địa chỉ và được gán cho một số thứ tự từ đơn vị thứ 1 đến đơn vị cuối cùng. • Có thể thực hiện việc lấy đơn vị mẫu ra bằng nhiều cách như bốc thăm, quay số, hay dùng số ngẫu nhiên, hàm ngẫu nhiên trong Excel nếu số lượng đơn vị tổng thể ít, khung lấy mẫu ngắn. Khi có quá nhiều đơn vị, cần có dưới dạng file và dùng phần mềm thống kê để chọn. • Cho kết quả tốt nếu giữa các đơn vị của tổng thể không có khác biệt nhiều. Nếu tổng thể có kết cấu phức tạp thì chọn theo phương pháp này sẽ khó đảm bảo tính đại biểu. • Ước lượng theo công thức cơ bản như Chương ước lượng Chọn mẫu ngẫu nhiên hệ thống • Chỉ cần chọn ra một/hai con số ngẫu nhiên là có thể xác định được tất cả các đơn vị mẫu cần lấy ra từ danh sách chọn mẫu (thay vì phải chọn ra n số ngẫu nhiên ứng với n đơn vị mẫu cần lấy ra). • Quy trình thực hiện: – Chuẩn bị danh sách chọn mẫu, xếp thứ tự theo một quy ước nào đó, đánh số thứ tự cho các đơn vị trong danh sách. Tổng số đơn vị trong danh sách là N. – Xác định cỡ mẫu muốn lấy, ví dụ gồm n quan sát – Chia N đơn vị tổng thể thành k nhóm theo công thức k=N/n, k được gọi là khoảng cách chọn mẫu. – Trong k đơn vị đầu tiên ta chọn ngẫu nhiên ra 1 đơn vị (bốc thăm hay sử dụng bảng số ngẫu nhiên hay hàm ngẫu nhiên), đây là đơn vị mẫu đầu tiên, các đơn vị mẫu tiếp theo được lấy cách đơn vị này 1 khoảng là k, 2k, 3k ... Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 53 Chọn mẫu phân tầng • Sử dụng khi các đơn vị quá khác nhau về tính chất liên quan đến vấn đề cần nghiên cứu và khảo sát. • Tổng thể nghiên cứu được chia thành các tầng lớp, mục tiêu là để các giá trị của các đối tượng tổng thể ta quan tâm thuộc cùng một tầng càng ít khác nhau càng tốt. Sau đó các đơn vị mẫu được chọn từ các tầng này theo các phương pháp lấy mẫu xác suất thông thường như lấy mẫu ngẫu nhiên đơn giản hay lấy mẫu hệ thống. • Đặc điểm dùng để phân tầng phải có liên quan đến nội dung bạn cần nghiên cứu khảo sát. • Số đơn vị mẫu trong từng tầng lớp có thể: bằng nhau, theo tỉ lệ của từng class hay phân bổ tối ưu (vừa theo quy mô của tầng lớp và theo mức độ đồng đều của các đơn vị trong cùng một tầng lớp). Chọn mẫu phân tầng • Khi quy mô toàn bộ mẫu không lớn lắm, lúc đó có thể phân bổ mẫu cho các tầng lớp đều nhau (mục đích chính là xem kết quả của từng tầng lớp và so sánh giữa các tầng lớp với nhau, mục đích khác là xem xét kết quả của toàn bộ tổng thể), và khi cần có kết quả chung thì sẽ gia trọng (nhân với hệ số) các tầng lớp theo hệ số phản ảnh qui mô của từng tầng lớp trong toàn bộ tổng thể. • Giả sử chúng ta cần lấy n đơn vị mẫu từ N đơn vị tổng thể, các đơn vị tổng thể được phân tầng thành k lớp • Nếu dùng phân bổ mẫu đều thì công thức tính số lượng đơn vị mẫu lấy ra trong từng tầng lớp đơn giản là: • Nếu phân bổ mẫu theo tỉ lệ, thì công thức tính số lượng đơn vị mẫu lấy ra trong từng tầng lớp sẽ theo tỉ lệ tức là cụ thể từ tầng lớp thứ i là: n n n n kk1 2 = = = =K N n N n N n N n k k ==== L 2 2 1 1 ii NN n n = Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 54 Chọn mẫu phân tầng Ước lượng trung bình khi chọn mẫu phân tầng: • Ước lượng điểm: • Ước lượng khoảng: trong đó Nếu phân bổ mẫu theo tỷ lệ thì: Lúc đó ii K 1i Nx∑ N 1 x = = x2/x2/ szxsz-x αα +<µ< )f-1( n sw s i k 1i i 2 i 2 i2 x ∑ = = 1-n )x-x(∑ s i 2 ii n 1i2 i i = = N N w ii = iN inif = fifN n iN in === i 2 i 2 i K 1i 2 x n sw ∑)f-1(s = = Sai số chọn mẫu trung bình Bình phương của sai số chọn mẫu trung bình Chọn mẫu phân tầng Ước lượng tỷ lệ khi chọn mẫu phân tầng: • Ước lượng điểm: • Ước lượng khoảng: trong đó Nếu phân bổ mẫu theo tỷ lệ thì: Lúc đó N N w ii = N n N n i i = Sai số chọn mẫu trung bình Bình phương của sai số chọn mẫu trung bình ∑ k 1i iiii K 1i pwpN∑ N 1pˆ = = == pˆ2/pˆ2/ szpˆpsz-pˆ αα +<< ) N n1( 1-n )p-1(pw ∑s i i i ii 2 i K 1i 2 pˆ −= = 1-n )p-1(pw ∑) N n1(s i ii 2 i K 1i 2 pˆ = −= Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 55 Chọn mẫu cả khối • Chọn mẫu trong đó số đơn vị mẫu được rút ra để điều tra không phải là từng đơn vị mà là từng khối gồm nhiều đơn vị. • Trước hết tổng thể chung được chia thành các khối, sau đó chọn ngẫu nhiên một số khối để điều tra tất cả các đơn vị trong khối. • Các khối có thể được chọn ngẫu nhiên đơn giản hay chọn hệ thống • Áp dụng khi không có danh sách các phần tử mà chỉ có danh sách các khối. Ví dụ không có danh sách các hộ gia đình, nhưng có danh sách của các tổ dân phố hay các khối nhà. Ước lượng trung bình khi chọn mẫu cả khối: • Ước lượng điểm: • Ước lượng khoảng: trong đó Chọn mẫu cả khối Sai số chọn mẫu trung bình Bình phương của sai số chọn mẫu trung bình i m 1i ii m 1i n∑ nx∑ x = = = x2/x2/ szxsz-x αα +<µ< 1-m )x-x(n∑ nMm m-M s 2 i 2 i m 1i 2 2 x =×= m n∑ =n i m 1=i n1, n2, , nm lần lượt là số đơn vị tổng thể của khối thứ 1, 2,.., m. lần lượt là trung bình của khối thứ 1, 2,.., m. mxxx ,...,, 21 Số đơn vị trung bình trong một khối Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 56 Chọn mẫu phi ngẫu nhiên • Khi không có điều kiện về thời gian, thông tin (số lượng đơn vị tổng thể, cơ cấu tổng thể và khung lấy mẫu) và chi phí để thực hiện lấy mẫu ngẫu nhiên. • Các cách chọn mẫu thông dụng: lấy mẫu thuận tiện, lấy mẫu định mức, • Nhược điểm: giá trị suy rộng thấp. Thực tế cố gắng sử dụng chọn mẫu phi ngẫu nhiên một cách khách quan, mô phỏng chọn mẫu ngẫu nhiên càng giống càng tốt. • Cỡ mẫu được xác định bằng công thức tính cỡ mẫu trong trường hợp chọn ngẫu nhiên và nhân thêm hệ số tăng để bù đắp cho khả năng sai số chọn mẫu lớn hơn vì tính đại diện kém hơn. Chọn mẫu phi ngẫu nhiên • Lấy mẫu thuận tiện: đến những nơi mà có nhiều khả năng gặp được đối tượng muốn khai thác thông tin mà bạn cảm thấy tiện lợi, cần suy nghĩ kỹ về thời gian, địa điểm hay hoàn cảnh sẽ gặp đối tượng và thu thập dữ liệu ở đó sao cho mẫu lấy ra càng giống với đối tượng mục tiêu mong muốn. • Lấy mẫu định mức: tương tự lấy mẫu xác suất phân tầng ở chỗ đầu tiên người nghiên cứu phải phân chia tổng thể nghiên cứu thành các tầng (tổng thể con). Nhưng điểm khác biệt cơ bản là trong từng tổng thể con những người phỏng vấn được chọn mẫu tại hiện trường theo cách thuận tiện hay phán đoán, trong khi trong mỗi tầng của chọn mẫu phân tầng thì các đơn vị mẫu được chọn ra theo kiểu xác suất từ dàn chọn mẫu.. Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 57 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 8 PHÂN TÍCH PHƯƠNG SAI - ANOVA Hoàng Trọng Khái niệm ANOVA • Mục tiêu của ANOVA là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các trung bình mẫu. • Trong nghiên cứu, ANOVA được dùng như một công cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (biến định tính) đến một yếu tố kết quả (biến định lượng) Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 58 ANOVA 1 yếu tố ảnh hưởng • Giả sử rằng muốn so sánh trung bình của k tổng thể có phương sai bằng nhau dựa trên những mẫu ngẫu nhiên độc lập • n1, n2, ..., nk : quan sát từ k tổng thể có phân phối chuẩn • Giả thuyết TK H0:  =  = ⋯ =  Các mẫu rút ra từ k tổng thể 1 2 . . . k x11 x12 . . . x1n1 x21 x22 . . . x2n2 . . . . . . . . . . . . xk1 xk1 . . . xknk ANOVA 1 yếu tố ảnh hưởng Bước 1: tính các trung bình • các trung bình mẫu • trung bình chung của k mẫu i n j ij i n x x i ∑ = = 1 ∑ ∑ = = = k i i k i ii n xn x 1 1 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 59 ANOVA 1 yếu tố ảnh hưởng Bước 2: tính các tổng bình phương • nội bộ từng nhóm • nội bộ k nhóm • giữa các nhóm • Toàn bộ mẫu 2 1 n 1j j11 )xx(SS 1 ∑ = −= 2 k 1i n 1j iij )xx(SSW i ∑∑ = = −= 2 i k 1i i )xx(nSSG −=∑ = SSGSSW)xx(SST 2 k 1i n 1j ij i +=−=∑∑ = = Biến thiên của biến kết quả x do các yếu tố khác ảnh hưởng Biến thiên của biến kết quả x do các nhóm (biến nguyên nhân) ảnh hưởng Biến thiên toàn bộ biến kết quả x ANOVA 1 yếu tố ảnh hưởng Bước 3: tính các phương sai • nội bộ nhóm • giữa các nhóm Bước 4: kiểm định • Bác bỏ giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau khi: F > F Phần phương sai của biến kết quả x do các yếu tố khác ảnh hưởng Phần phương sai của biến kết quả x do các nhóm (biến nguyên nhân) ảnh hưởng kn SSWMSW − = 1k SSGMSG − = MSW MSGF = α,,1 knk −− Giá trị giới hạn tra từ bảng phân phối F với k -1 bậc tự do ở tử số và n -k bậc tự do ở mẫu số ở mức ý nghĩa α Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 60 ANOVA 1 yếu tố ảnh hưởng Bảng kết quả phân tích phương sai Source of Variation Sum of squares (SS) Degree of Freedom (df) Mean squares (MS) F ratio Between-groups SSG k - 1 Within- groups SSW n - k Total SST n - 1 1− = k SSGMSG MSW MSGF = kn SSWMSW − = ANOVA 1 yếu tố ảnh hưởng Ví dụ: Đi làm thêm kết quả học tập H0:  =  = ⋯ =  Nhóm 1 (TG làm thêm ít) Nhóm 2 (TG làm thêm TB) Nhóm 3 (TG làm thêm nhiều) 6,3 7,0 6,5 6,6 7,2 6,9 6,4 7,2 6,6 6,1 5,8 6,8 7,1 5,9 6,3 5,8 6,0 5,5 5,2 6,5 5,3 6,2 Tổng cộng 46,9 45,5 46,8 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 61 ANOVA 1 yếu tố ảnh hưởng Ví dụ: Đi làm thêm kết quả học tập H0:  =  = ⋯ =  KL: bác bỏ Ho, Mức độ làm thêm có ảnh hưởng đến KQHT Anova: Single Factor SUMMARY Groups Count Sum Average Variance ít 7 46.9 6.7 0.11333 TB 7 45.5 6.5 0.32667 nhieàu 8 46.8 5.85 0.23143 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 3.0036 2 1.5018 6.6983 0.0063 3.5219 Within Groups 4.26 19 0.224211 Total 7.2636 21 Phân tích sâu ANOVA Mục đích: phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào. Phương pháp Tukey (kiểm định HSD): so sánh từng cặp các trung bình nhóm ở mức ý nghĩa nào đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau. Nếu có k nhóm nghiên cứu, thì số lượng cặp cần phải so sánh là tổ hợp chập 2 của k nhóm. Các giả thuyết cần kiểm định là: 1. H0:  =  2. H0:  =  3. H0:  =  Giá trị giới hạn Tukey: là giá trị tra bảng phân phối kiểm định Tukey (studentized range distribution) ở mức ý nghĩa α, với bậc tự do k và n-k 2 )1k(k )!2k(!2 !kC2k − = − = i knk n MSW qT − = ,,α knkq −,,α Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 62 Trường hợp các tổng thể có phân phối bất kỳ ANOVA với kiểm định F chỉ có thể áp dụng khi các nhóm (tổng thể) so sánh có phân phối chuẩn và phương sai bằng nhau => chuyển đổi dữ liệu yếu tố kết quả từ dạng định lượng về dạng định tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số là Kruskal – Wallis. Kiểm định này không yêu cầu dữ liệu phải thỏa điều kiện các tổng thể (nhóm) so sánh phải có phân phối chuẩn. Các trị số quan sát được sắp xếp một cách liên tục từ nhỏ đến lớn, nếu trị số quan sát trùng nhau thì cho hạng giống nhau bằng cách dùng số trung bình cộng các hạng của chúng để chia đều. R1, R2, ...., Rk là tổng của các hạng ở từng mẫu được xếp theo thứ tự của k mẫu, H0:  =  = ⋯ =  Đại lượng kiểm định: W = Giả thuyết Ho bị bác bỏ khi: )1(3)1( 12 1 2 +− + ∑ = n n R nn k i i i 2 ,1kW α−χ> Giá trị giới hạn tra từ bảng phân phối Chi square Trường hợp các tổng thể có phân phối bất kỳ Xếp hạng các dữ liệu về điểm trung bình học tập của sinh viên W = 8,6 > nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,05 KL: Mức độ làm thêm có ảnh hưởng đến kết quả học tập của sinh viên. TG làm thêm ít Hạng TG làm thêm TB Hạng TG làm thêm nhiều Hạng 6,3 7,0 6,5 6,6 7,3 6,9 6,4 12,5 4 9,5 7,5 1 5 11 7,2 6,6 6,1 5,8 6,8 7,1 5,9 2 7,5 15 18,5 6 3 17 6,3 5,8 6,0 5,5 5,3 6,5 5,4 6,2 12,5 18,5 16 20 22 9,5 21 14 R1=50,5 R2=69,0 R3=133,5 8,6 1)3(22 - 8 )5,133( 7 )0,69( 7 )5,50( )122(22 12)1n(3 n R )1n(n 12W k 1i 222 i 2 i =+       ++ + =+− + = ∑ = 99,52 05,0;2 =χ Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 63 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 9 DÃY SỐ THỜI GIAN Hoàng Trọng Mục tiêu • Dự đoán định lượng có hai loại: phân tích các mức độ qua thời gian và phân tích liên hệ nguyên nhân - kết quả. Phương pháp dự đoán bằng phân tích các mức độ qua thời gian liên quan đến việc tính toán các giá trị tương lai của yếu tố nghiên cứu dựa trên toàn bộ các quan sát có được ở quá khứ và hiện tại • Phân tích các mức độ qua thời gian được dựa trên giả định cơ bản là các yếu tố ảnh hưởng đến biến động của hiện tượng trong quá khứ và hiện tại sẽ còn tiếp tục tồn tại với tính chất, đặc điểm, cường độ như vậy đối với biến động của hiện tượng trong tương lai. • Do đó, mục tiêu chính của phân tích dãy số thời gian là nhận ra và tách riêng các yếu tố ảnh hưởng này phục vụ cho mục đích dự đoán cũng như cho việc kiểm soát và hoạch định trong quản lý. Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 64 Mục tiêu Định nghĩa • Dãy số thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắp xếp theo thứ tự thời gian. • Dạng tổng quát: it 1t 2t . . . . nt iy 1y 2y . . . . ny it (i = n,1 ) : thời gian thứ i iy (i = n,1 ) : giá trị của chỉ tiêu tương ứng với thời gian thứ i Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 65 Định nghĩa • Dãy số thời kỳ: các trị số là số thời kỳ, thể hiện biến động qua từng thời kỳ • Dãy số thời điểm: các trị số là số thời điểm, thể hiện biến động qua các thời điểm 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 GDP theo giá thực tế (tỷ đồng) 481,295 535,762 613,443 715,307 839,211 974,264 1,143,715 1,485,038 1,658,389 1,980,914 trong đó: Dịch vụ 185,922 206,182 233,032 271,699 314,708 365,864 430,979 555,959 635,195 748,363 Ngày 23/7 24/7 25/7 26/7 27/7 28/7 Giá vàng (Ngàn đồng /chỉ) 1.317,0 1.316,5 1.310,0 1.307,5 1.294,0 1.294,0 Các thành phần của dãy số thời gian Time-Series Cyclical Component Irregular/Random Component Trend Component Seasonal Component Thành phần xu hướng Thành phần thời vụ Thành phần chu kỳ Thành phần bất thường/ ngẫu nhiên iiiii I.C.S.Ty = Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 66 Các thành phần của dãy số thời gian Thành phần xu hướng Sales Time Downward linear trend Sales Time Upward nonlinear trend Sales Time Các thành phần của dãy số thời gian Thành phần thời vụ Sales Time (Quarterly) Winter Spring Summer Fall Chu kỳ 1 năm Số liệu theo tháng hay theo quý Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 67 Các thành phần của dãy số thời gian Thành phần chu kỳ Chu kỳ dài hạn, hơn 1 năm Số liệu theo năm Sales 1 Cycle Year Các thành phần của dãy số thời gian Thành phần bất thường/ ngẫu nhiên Do thiên nhiên, thiên tai, thảm họa, tin đồn Biến thiên ngẫu nhiên còn lại sau khi các thành phần trước được tách ra. Sales Year Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 68 Các chỉ tiêu mô tả dãy số thời gian 1. Mức độ trung bình theo thời gian: Dãy số thời kỳ: Dãy số thời điểm, khoảng cách đều: Dãy số thời điểm, khoảng cách không đều: n y n y...yyy in21 ∑=+++= 1n 2 yy...y 2 y 1n 2 yy ... 2 yy 2 yy y n 1n2 1n1n3221 − ++++ = − + ++ + + + = − − ∑ ∑ = +++ +++ = i ii n21 nn2211 t ty t...tt ty...tytyy Các chỉ tiêu mô tả dãy số thời gian 2. Lượng tăng giảm tuyệt đối: Liên hoàn: δi = yi - yi-1 Mối quan hệ: Định gốc: ∆i = yi - y1 Trung bình: 1n yy 1n1n 1nn n 2i i − − = − ∆ = − δ =δ ∑ = ∆k = i k = ∑ 2 δi Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 69 Các chỉ tiêu mô tả dãy số thời gian 3. Tốc độ phát triển: Liên hoàn: Mối quan hệ: Định gốc: Trung bình: 1i i i y y t − = 1 i i y yT = i k 2iK tT = Π= 1n 1 n1n n 1n i n 21 1n n32 y yTtt...ttt −−− = − ==Π== Các chỉ tiêu mô tả dãy số thời gian 4. Tốc độ tăng (giảm): Liên hoàn: Định gốc: Trung bình: 1t y yy a i 1i 1ii i −= − = − − 1T y yyA i 1 1i i −= − = 1ta −= Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 70 Các chỉ tiêu mô tả dãy số thời gian 5. Trị tuyệt đối của 1% tăng (giảm): 1% tăng hay giảm tương ứng với trị tuyệt đối là bao nhiêu 100 y 100 y yy yy (%)ag 1i 1i 1ii 1ii i i i − − − − = × − − = δ = PP biểu hiện xu hướng biến động 1. Trung bình trượt: Dùng để làm trơn/nhẵn dãy số Tính ra dãy số mới với dữ liệu là các số trung bình trượt từ một số các mức độ trong dãy số gốc Số lượng mức độ tính TB trượt nên bằng số mùa trong năm (đối với dữ liệu tháng là 12, đối với dữ liệu quý là 4) Ví dụ: dữ liệu theo quý, tính TB từ nhóm 4 mức độ: . . . 4 yyyyy 43211 +++ = 4 yyyyy 54322 +++ = 4 yyyyy n1-n2-n3-n3-n +++ = Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 71 PP biểu hiện xu hướng biến động 2. Hàm xu thế: Hàm tuyến tính đường thẳng: Dùng PP bình phương bé nhất tìm các hệ số hồi qui, được hệ PT: Vì t là thứ tự thời gian, đổi biến sao cho , hệ PT chỉ còn là: taayˆ 10t +=    += += ∑ ∑∑ ∑∑ 2 10 10 tatayt tanay ∑ = 0t    = = ∑∑ ∑ 2 1 0 tayt nay ∑ ∑∑ == 210 t yt a, n y a PP biểu hiện xu hướng biến động 2. Hàm bậc 2: đường gấp khúc thực tế có dạng đường cong parabol Dùng PP bình phương bé nhất tìm các hệ số hồi qui, được hệ PT: Đổi biến sao cho để đơn giản hóa tính toán, hoặc dùng phần mềm thống kê để tìm các hệ số hồi qui. 2 210t tataayˆ ++=          ++= ++= ++= ∑ ∑ ∑∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ = = == = = = = = = = n 1i n 1i n 1i 4 i2 3 i1 2 i0 2 i n 1i i n 1i n 1i n 1i n 1i 3 i2 2 i1i0ii n 1i n 1i n 1i 2 i2i10i tatataty tatataty tatanay ∑ = 0t Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 72 PP biểu hiện xu hướng biến động 3. Hàm số mũ: khi hiện tượng có tốc độ phát triển tương đối ổn định Dùng PP bình phương bé nhất tìm các hệ số hồi qui, được hệ PT: Đổi biến sao cho để đơn giản hóa tính toán, hoặc dùng phần mềm thống kê để tìm các hệ số hồi qui. ∑ = 0t t 10t aayˆ =        =+ =+ ∑ ∑ ∑ ∑ ∑ = = = = = n 1i n 1i n 1i ii 2 i1i0 n 1i n 1i ii10 ylgttalgtalg ylgtalgalgn 1. Tách thành phần S bằng PP trung bình trượt: Thành phần thời vụ S là biến thiên có chu kỳ 1 năm, cho nên nếu tính trung bình trượt với khoảng thời gian 1 năm (số mức độ tính TB trượt là 4 ứng với 4 quý hay là 12 ứng với 12 tháng) thì sẽ khử được tính mùa vụ, dãy số TB trượt chỉ còn là TC, sau đó từ dãy số gốc TSCI, chia cho TC này ta được SI và tính trung bình các SI để loại bỏ I và tách được thành phần S. Sơ đồ tính toán như sau: iiiii I.C.S.Ty = TSCI TC Tính TB trượt SI Tính TSCI/TC S Tính TB các chỉ số S cùng kỳ Phân tích các thành phần của dãy số TG Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 73 2. Tách thành phần T bằng PP hồi quy Dãy số gốc TSCI (y) có quá nhiều biến thiên bên trong, dùng hàm xu thế tìm phương trình thể hiện xu hướng và tính ra T thì sai số rất lớn. Sau khi tách được yếu tố S, lấy TSCI chia cho S ta được TCI. Từ dãy số TCI, dùng PP hồi qui sẽ tìm được hàm xu thế và tính ra các trị số của thành phần T. Sơ đồ tính toán như sau: TSCI TCI T Tìm PT hồi qui, tính ra TLấy TSCI /S iiiii I.C.S.Ty = Phân tích các thành phần của dãy số TG 3. Tách thành phần C bằng PP trung bình trượt: Sau khi tách được thành phần T, lấy TCI chia cho T còn lại SI. Từ dãy số SI, dùng trung bình trượt sẽ tìm được các chỉ số chu kỳ C. Cuối cùng lấy SI chia cho S ra thành phần bất thường I. Thành phần I bao gồm các số ngẫu nhiên không theo quy luật biến thiên nào Sơ đồ tính toán như sau: TCI CI Lấy TCI /T C Tính TB trượt I Lấy CI / C iiiii I.C.S.Ty = Phân tích các thành phần của dãy số TG Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 74 Phân tích các thành phần của dãy số TG Ví dụ: 1. xem sách giáo trình NLTKKT 2010, trang 303 - 313 2. Xem file Excel có tên GT NLTKKT mo hinh nhan TSCI Dự đoán biến động của dãy số TG Dựa vào lượng tăng (giảm) tuyệt đối trung bình Áp dụng khi lượng tăng tuyệt đối liên hoàn khá đồng đều Bước 1: tính lượng tăng tuyệt đối trung bình Bước 2: dự đoán dựa vào công thức: Ví dụ: file Excel DSTG Du bao du lieu thu cap 1iyiyi −−=δ 1n 1yny 1n n 1n i − − = − ∆ = − ∑σ =δ )(Lyy nLn δ+=+) Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 75 Dự đoán biến động của dãy số TG Dựa vào tốc độ phát triển trung bình Áp dụng khi tốc độ phát triển liên hoàn khá đồng đều Bước 1: tính tốc độ phát triển trung bình Bước 2: dự đoán dựa vào công thức: Ví dụ: file Excel DSTG Du bao du lieu thu cap 1iy iy it − = 1n 1y n y t −= L nLn )t(yy ×=+) Dự đoán biến động của dãy số TG Dựa vào ngoại suy hàm xu thế Áp dụng khi các mức độ biến thiên có dạng của các đường biểu diễn. Bước 1: tìm các phương trình biểu diễn xu thế biến động Bước 2: thay giá trị t ứng với thời gian muốn dự đoán vào PT Ví dụ: file Excel DSTG Du bao du lieu thu cap taay 10 += ) )(10 lnln taay ++ +=) 2 210 tataay ++= ) 2 210 lnlnln tataay +++ ++= ) t aay 10 ×= ) lnt ln aay +×=+ 10 ) Tăng nhanh, rồi chậm dần và có xu hướng giảm Tăng nhanh và có tốc độ phát triển khá ổn định Có xu hướng tăng giảm khá rõ ràng gần như thẳng Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 76 Dự đoán biến động của dãy số TG Vấn đề biến động thời vụ (biến động mùa) Trong trường hợp có biến động thời vụ, vấn đề dự báo cho cả năm và cho từng tháng trong năm cần phải tính chỉ số mùa Bước 1: Tính chỉ số mùa đơn giản bằng cách lấy mức độ ở từng tháng/quý cùng tên chia cho mức độ trung bình chung tất cả các tháng/quý. Bước 2: Sau khi có dự báo theo năm (bằng các PP trước), đưa ra dự báo chi tiết cho từng tháng/quý hay tuần theo công thức %100×= y yI isi i y y Mức độ TB của các tháng/quý giống nhau qua các năm Mức độ TB của tất các các các tháng/quý qua các năm is ln i I yy ×= + 12 ) ) is ln i I4 yy ×= + ) ) is ln i I52 yy ×= + ) ) Dự đoán biến động của dãy số TG Dùng mô hình nhân TSCI Trong trường hợp có đầy đủ số liệu các tháng/quý qua các năm, và vừa có biến động xu hướng, mùa vụ và chu kỳ. Bước 1: Tách các thành phần của DSTG Bước 2: tìm T ở thời gian muốn dự đoán bằng cách ngoại suy hàm xu thế. Bước 3: nhân mức độ xu thế tại thời gian muốn dự báo với chỉ số thời vụ và chu kỳ (nếu có) tương ứng Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 77 Dự đoán bằng PP san bằng mũ San bằng mũ đơn giản Thường được sử dụng trong dự đoán ngắn hạn đối với dãy số thời gian không có xu hướng hoặc biến động thời vụ rõ rệt. Ở thời gian t nào đó, dựa vào các giá trị thực tế đã biết để ước lượng giá trị hiện tại (thời gian t) của hiện tượng và dùng giá trị hiện tại này để dự đoán giá trị tương lai (thời gian t+1). Không phải tất cả các giá trị quá khứ đều có ảnh hưởng ngang nhau đến việc dự đoán giá trị tương lai, mà các giá trị càng “mới”, càng gần với thời gian dự đoán thì giá trị thông tin mới càng cao và do vậy càng có ảnh hưởng đến giá trị dự đoán, tức là các giá trị càng gần với thời gian dự đoán thì được gán cho trọng số càng lớn Dự đoán bằng PP san bằng mũ San bằng mũ đơn giản 1ˆ +ty = tS (12.37) 1ˆ +ty : giaù trò döï ñoaùn cuûa hieän töôïng ôû thôøi gian t + 1 tS : trung bình coù troïng soá cuûa caùc giaù trò thöïc teá 121 ,...,,, yyyy ttt −− Theo phöông phaùp san baèng muõ ñôn giaûn, ta co ù: 1ˆ +ty = ...)()1())(1()( 221 +−+−+ −− ttt ywwywwyw hay 1ˆ +ty = )ˆ)(1()( tt ywyw −+ 1ˆ +ty = )ˆ)(1()( ttt yywy −−+ (12.38) trong ñoù: w troïng soá 1 (haèng soá san baèng muõ)2 vaø 0 < w < 1 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 78 Dự đoán bằng PP san bằng mũ San bằng mũ đơn giản • Chênh lệch càng nhỏ tức là dự đoán càng chính xác. Chênh lệch này là nhỏ nhất khi đường biểu diễn dự đoán gần sát nhất với đường biểu diễn dãy số thực tế. Ta có thể dùng các đại lượng: trung bình bình phương sai số dự đoán (MSE) hay trung bình độ lệch tuyệt đối của sai số dự đoán (MAD), căn bậc hai của trung bình bình phương sai số dự đoán (RMSE) hoặc trung bình của các trị tuyệt đối của phần trăm sai số (MAPE). • Mean square error • Mean absolute deviation • Root mean square error • Mean absolute percent error Dự đoán bằng PP san bằng mũ San bằng mũ đơn giản n yy MSE n t tt∑ = − = 1 2)ˆ( (12.40) ; n yy MAD n t tt∑ = − = 1 ˆ ( 12.41) n yy RMSE n t tt∑ = − = 1 2)ˆ( (12.42) ; %100 ˆ 1 × − = ∑ = n y yy MAPE n t t tt (12.43) Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 79 Dự đoán bằng PP san bằng mũ San bằng mũ Holt-Winters: Biến động có tính xu hướng và hoặc thời vụ Giaû söû ta coù daõy soá thôøi gian nyyy ,...,, 21 vôùi bieán ñoäng coù tính xu höôùng. Ñaët 2S = 2y vaø 122 yyT −= Ta coù: ))(1()( 11 −− +−+= tttt ySyS αα vôùi 0 < βα , < 1 (12.44) ))(1()( 11 −− −+−= tttt TSST ββ t = 3,4, . . . ,n (12.45) βα , : caùc haèng soá san baèng muõ Muoán döï ñoaùn giaù trò cuûa hieän töôïng ôû thôøi ñieåm n + h, duøng coâng thöùc: nnhn hTSy +=+ˆ vôùi h = 1,2,3, . . . (12.46) Dự đoán bằng PP san bằng mũ San bằng mũ Holt-Winters: Biến động có tính xu hướng a.Thoâng qua soá trung bình di ñoäng *1y ñeå xaùc ñònh caùc giaù trò ttt FTS ,, ñaàu tieân Vôùi *1y = s yyyy stststst 2 )...(2 2/1)2/(1)2/(2/ +−++−− ++++ (12.47) T = (s/2) + 1, (s/2) + 2, . . ., (5s/2) Ñaët caùc giaù trò ttt FTS ,, ñaàu tieân 2/5 * 2/5 ss Sy = 1)2/5(2/52/5 −−= sss SST         += − − − − − js js js js js S y S y F )2/3( )2/3( )2/5( )2/5( )2/5( 2 1 j = 0, 1, 2, 3, . . . , s-1 Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 80 Dự đoán bằng PP san bằng mũ San bằng mũ Holt-Winters: Biến động có tính xu hướng b. Baét ñaàu ôû thôøi kyø thöù [5(s/2) +1], caùc giaù trò ttt FTS ,, ñöôïc xaùc ñònh nhö sau: st t ttt F y TSS − −− ++−= αα ))(1( 11 (0 < α < 1) (12.48) )()1( 11 −− −+−= tttt SSTT ββ (0 < β < 1) (12.49) t t stt S y FF γγ +−= − )1( (0 < γ < 1) (12.50) ÔÛ thôøi ñieåm n, muoán döï ñoaùn giaù trò hieän töôïng ôû thôøi ñieåm n + h: shnnnhn FhTSy −++ += )(ˆ (h = 1,2, . . . , s) (12.51) hay shnnnhn FhTSy 2)(ˆ −++ += ( h = s +1, s + 2, . . . , 2s) Dự đoán bằng PP san bằng mũ San bằng mũ Holt-Winters: Ví dụ:xem sách giáo khoa và file Excel, SPSS Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 81 Thống kê Ứng Dụng trong Kinh Doanh & Kinh Tế (Applied Statistics for Business & Economics) Chương 10 Chỉ số Hoàng Trọng Một số vấn đề chung • Khái niệm: Chỉ số trong thống kê là số tương đối biểu hiện quan hệ so sánh giữa các mức độ của một chỉ tiêu hay hiện tượng kinh tế - xã hội. Chỉ số được tính bằng cách so sánh (phép tính chia) hai mức độ của hiện tượng ở hai thời gian hoặc hai không gian khác nhau nhằm biểu hiện mức độ biến động của chỉ tiêu hay hiện tượng qua thời gian hoặc không gian. • Phân loại chỉ số: – Chỉ số cá thể - chỉ số tổng hợp – Chỉ số của chỉ tiêu chất lượng – chỉ số của chỉ tiêu khối lượng – Chỉ số liên hoàn – chỉ số định gốc – Chỉ số dạng cơ bản và dạng biến đổi Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 82 Chỉ số cá thể • Là loại chỉ số đơn giản nhất, thể hiện sự biến động của từng phần tử, từng đơn vị cá biệt trong một tổng thể phức tạp. Về cơ bản thì chỉ số cá thể chính là số tương đối • Chỉ số cá thể giá cả: • Chỉ số cá thể khối lượng %100x p pi 0 1 p = %100x q qi 0 1 q = Chỉ số tổng hợp giá cả • CS tổng hợp, biểu hiện biến động của các phần tử trong hiện tượng phức tạp được chuyển về dạng đồng nhất để có thể cộng trực tiếp với nhau, dựa trên cơ sở mối quan hệ giữa yếu tố nghiên cứu với yếu tố khác có liên quan. Ví dụ như khối lượng các sản phẩm khác loại vốn không thể cộng trực tiếp với nhau do khác đơn vị tính khi được chuyển sang dạng giá trị, bằng cách nhân với yếu tố giá cả, thì có thể cộng được với nhau. • CS tổng hợp đánh giá sự thay đổi của một số hoặc tất cả các phần tử thuộc tổng thể nghiên cứu. Trong chỉ số tổng hợp, có quyền số (trọng số) đó là yếu tố được chọn để giúp chuyển các phần tử không thể cộng trực tiếp với nhau thành một dạng chung có thể cộng được, quyền số thể hiện vai trò của từng phần tử trong toàn bộ tổng thể. • Quyền số có thể được chọn ở các kỳ khác nhau (có khi là kì gốc, có khi là kì báo cáo, có khi là một kỳ nào đó phù hợp) là tùy theo mục đích nghiên cứu. Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 83 Chỉ số tổng hợp • Chỉ số tổng hợp giá cả: CS Laspayres CS Paasche: %100x qp qp I n 1i )0(i)0(i n 1i )0(i)1(i p ∑ ∑ = = = %100x qp qp I 00 01 p ∑ ∑ = %100x qp qp I 10 11 p ∑ ∑ = Chỉ số tổng hợp • Chỉ số tổng hợp giá cả: Hàng hóa ĐVT Giá (ngàn đồng) SL tiêu thụ (ngàn ĐVT) Trị giá (triệu đồng) Kì gốc (p0) Kì nghiên cứu (p1) Kì gốc (q0) Kì nghiên cứu (q1) p1q0 p0q0 p1q1 p0q1 X Kg 5 6 10 13 60 50 78 65 Y Lít 10 12,2 5 5,5 61 50 67,1 55 Z Chục 8 10 0,25 0,32 2,5 2 3,2 2,56 TC 123,5 102 148,3 122,56 %08,121%100x 102 5,123%100x qp qp I 00 01 p === ∑ ∑ %121%100 56,122 3,148%100 qp qp I 10 11 p =×=×= ∑ ∑ Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 84 Chỉ số tổng hợp • Chỉ số tổng hợp giá cả - Fisher: ∑ ∑ ∑ ∑ ×= 10 11 00 01 p qp qp qp qp I 21041 56122 3148 102 5123 qp qp qp qp I 10 11 00 01 p ,, ,, =×=×= ∑ ∑ ∑ ∑ Chỉ số tổng hợp • Chỉ số tổng hợp khối lượng: CS Laspayres CS Paasche: CS Fisher %100x pq pq I 00 01 q ∑ ∑ = %100x pq pq I 10 11 q ∑ ∑ = ∑ ∑ ∑ ∑ ×= 10 11 00 01 q pq pq pq pq I Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 85 Chỉ số tổng hợp • Chỉ số tổng hợp khối lượng: CS Laspayres: CS Paasche: CS Fisher %16,120%100 102 56,122%100 pq pq I 00 01 q =×=×= ∑ ∑ %08,120%100 5,123 3,148%100 10 11 =×=×= ∑ ∑ pq pq I q %,,*, 121200812016120 pq pq pq pq I 10 11 00 01 q ==×= ∑ ∑ ∑ ∑ Chỉ số của chỉ tiêu CL và KL • Chỉ số tổng hợp chất lượng: CS Laspayres: CS Paasche: • Chỉ số tổng hợp khối lượng: Laspayres: CS Paasche: %100x qp qp I 00 01 p ∑ ∑ = %100x qp qp I 10 11 p ∑ ∑ = %100x pq pq I 00 01 q ∑ ∑ = %100x pq pq I 10 11 q ∑ ∑ = Thống Kê Ứng Dụng trong Kinh Tế & Kinh Doanh, Hoàng Trọng, ĐH Kinh Tế TPHCM 86 Hệ thống chỉ số • kết hợp các chỉ số riêng lẻ lại thành hệ thống chỉ số Ip x Iq =Ipq Chỉ số giá theo Paasche và chỉ số khối lượng theo Laspeyres chỉ số giá theo Laspeyres và chỉ số khối lượng theo Paasche ∑ ∑ ∑ ∑ ∑ ∑ = 00 11 00 01 10 11 qp qp pq pq qp qp 00 11 10 11 00 01 qp qp pq pq qp qp ∑ ∑ ∑ ∑ ∑ ∑ = Hệ thống chỉ số • hệ thống chỉ số liên hoàn và định gốc • Các chỉ số liên hoàn dùng quyền số cố định có ưu điểm là tích của chúng bằng chỉ số định gốc, dễ tính toán và so sánh trong thực tế. Naêm 0 1 2 3 4 5 Daõy caùc chæ soá lieân hoaøn, quyeàn soá thay ñoåi - ∑ ∑ 10 11 qp qp ∑ ∑ 21 22 qp qp ∑ ∑ 32 33 qp qp ∑ ∑ 43 44 qp qp ∑ ∑ 54 55 qp qp Daõy caùc chæ soá lieân hoaøn, quyeàn soá coá ñònh - ∑ ∑ 00 01 qp qp ∑ ∑ 01 02 qp qp ∑ ∑ 02 03 qp qp ∑ ∑ 03 04 qp qp ∑ ∑ 04 05 qp qp Daõy caùc chæ soá ñònh goác, quyeàn soá coá ñònh - ∑ ∑ 00 01 qp qp ∑ ∑ 00 02 qp qp ∑ ∑ 00 03 qp qp ∑ ∑ 00 04 qp qp ∑ ∑ 00 05 qp qp

Các file đính kèm theo tài liệu này:

  • pdftkud_slides_2014_7565.pdf