Cơ sở lý thuyết cho thống kê suy diễn
Có sự liên thông giữa 3 môn XSTK, LLTK và KTL. Bạn phải nắm vững các khái niệm xác suất, đặc biệt là các hàm phân phối xác suất dẫn xuất từ phân phối chuẩn, bạn mới có thể hiểu được thống kê suy diễn của LLTK. Nếu bạn hiểu LLTK thì KTL là môn khá thú vị. Khi đó bạn không còn quá bận tâm về kỹ thuật thống kê (ước lượng, kiểm định) mà tập trung phân tích bản chất quan hệ giữa các biến số kinh tế.
Yan can cook, you too. Yan có thể nấu ăn thì bạn có thể.
17 trang |
Chia sẻ: aloso | Lượt xem: 2496 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Cơ sở lý thuyết cho thống kê suy diễn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Bài viết này trích ra và sửa chữa từ bản thảo Giáo Trình Kinh Tế Lượng của tôi viết cho Đại Học Ngân Hàng. Mục đích giúp các bạn đang học môn Lý Thuyết Thống Kê và Kinh Tế Lượng hiểu bản chất của Thống Kê Suy Diễn được sử dụng trong hai môn học này. Tài liệu này được dùng kèm với các giáo trình, không thay thế cho nội dung tương ứng của các giáo trình. Bài viết gồm bốn: (1) Các phân phối xác suất thông dụng, (2) Ước lượng khoảng, (3) Kiểm dịnh giả thuyết thống kê, (4) Ví dụ bằng số với phần mềm MegaStat. Nó đang là bản thảo, mong thầy cô và các bạn góp ý. Chân thành cảm ơn.
1. Các phân phối xác suất thông dụng
1.1. Phân phối thường
Hàm mật độ xác suất của phân phối thường:
Các tính chất của phân phối thường
Hàm mật độ xác suất đối xứng quanh giá trị trung bình.
Xấp xỉ 68% quan sát nằm trong khoảng (m ± s), xấp xỉ 95% quan sát nằm trong khoảng (m ± 2s), và xấp xỉ 99,7% quan sát nằm trong khoảng (m ± 3s).
Định lý giới hạn trung tâm 1: Một kết hợp tuyến tính các biến có phân phối thường, trong một số điều kiện xác định cũng là một phân phối thường. Ví dụ và thì Y =aX1+bX2 với a và b là hằng số có phân phối Y~N[(am1+bm2),(].
Định lý giới hạn trung tâm 2: Dưới một số điều kiện xác định, giá trị trung bình mẫu của các một biến ngẫu nhiên sẽ tuân theo phân phối thường, với
Mô men của phân phối thường
Mô men bậc ba: E[(X-m)3]=0
Mô men bậc bốn : E[(X-m)4]=3s4
Đối với một phân phối chuẩn
Độ méo (skewness):
Độ nhọn (kurtosis):
Dựa vào tính chất trên, người có thể kiểm định xem một biến ngẫu nhiên có tuân theo phân phối thường hay không bằng cách kiểm định xem S có gần 0 và K có gần 3 hay không. Đây là nguyên tắc xây dựng kiểm định Jarque-Bera.
JB tuân theo phân phối c2 với hai bậc tự do (df =2).
Nếu đặt thì ta có Z~N(0,1). Z được gọi là biến chuẩn hoá và N(0,1) được gọi là phân phối chuẩn.
1.2. Phân phối Chi-square
Nếu X1, X2,…, Xk là các biến ngẫu nhiên độc lập có phân phối chuẩn hoá thì tuân theo phân phối Chi-bình phương với k bậc tự do.
Tính chất của phân phối
Phân phối c2 là phân phối lệch về bên trái, khi bậc tự do tăng dần thì phân phối c2 tiến gần đến phân phối chuẩn.
m = k và s2 = 2k
, hay tổng của hai biến có phân phối c2 cũng có phân phối c2 với số bậc tự do bằng tổng các bậc tự do.
1.3. Phân phối t
Nếu Z~N(0,1) và là độc lập thống kê thì tuân theo phân phối t-Student hay nói gọn là phân phối t với k bậc tự do.
Tính chất của phân phối t
Phân phối t cũng đối xứng quanh 0 như phân phối chuẩn hoá nhưng phân tán hơn. Khi bậc tự do càng lớn thì phân phối t tiệm cận đến phân phối chuẩn hoá. Trong thực hành. Khi bậc tự do lớn hơn 30 người ta thay phân phối t bằng phân phối chuẩn hoá.
m = 0 và s = k/(k-2)
1.4. Phân phối F
Nếu và độc lập thống kê thì theo phân phối F với (k1, k2) bậc tự do.
Tính chất của phân phối F
Phân phối F lệch về bên trái, khi bậc tự do k1 và k2 đủ lớn, phân phối F tiến đến phân phối thường.
m = k2/(k2-2) với điều kiện k2>2 và với điều kiện k2>4.
Bình phương của một phân phối t với k bậc tự do là một phân phối F với 1 và k bậc tự do
Nếu bậc tự do mẫu k2 khá lớn thì .
1.5. Phân phối nhị thức
X là số lần thành công với n là số lần thử và p là tỷ lệ “thành công” của một lần thử.
Các tính chất của phân phối nhị thức
mX = E(X) = np
s2 = np(1-p)
2. Ước lượng khoảng tin cậy 1-a
2.1. Ước lượng khoảng cho trung bình khi biết độ lệch chuẩn của tổng thể
Giả sử biến ngẫu nhiên X tuân theo phân phối thường và chúng ta biết độ lệch chuẩn
Xuất phát từ định lý giới hạn trung tâm 2: và công thức chuẩn hoá một phân phối thường ~N(0,1). Chúng ta chuẩn hoá biến .
Nếu chọn a = 5% thì Za/2 = -1.96 và Z1-a/2=1.96
Giá trị tới hạn của Z ứng với a = 5% (hai đuôi)
Nguồn: Excel/MegaStat/ Probability/ Normal Distribution/…
Vậy khoảng tin cậy (1-a) cho m là
Ứng với a = 5% thì khoảng tin cậy 95% cho m là
2.2. Ước lượng khoảng cho giá trị trung bình khi không biết độ lệch chuẩn của tổng thể
Chúng ta chỉ có độ lệch chuẩn của mẫu điều tra s thay vì có độ lệch chuẩn của tổng thể s. Nhắc lại
Vậy không thể tuân theo N(0,1)
Chúng ta bổ sung một định lý Tạm thời chúng ta chưa cần chứng minh định lý này.
Và thực hiện một vài phép biến đổi
(theo định nghĩa phân phối t)
Tóm lại tuân theo t-Student với (n-1) bậc tự do.
Nếu chọn a = 5%, ứng với n = 20 thì t19,a/2 = -2.093 và t19,1-a/2= 2.093
Giá trị tới hạn của t ứng với a = 5% và df = 19 (hai đuôi)
Nguồn: Excel/MegaStat/ Probability/ t Distribution/…
Vậy khoảng tin cậy (1-a) cho m là
Ứng với a = 5% và n = 20 thì khoảng tin cậy 95% cho m là
Đặc điểm của phân phối t là nó tiệm cận với phân phối chuẩn khi n đủ lớn, vậy khi n đủ lớn (n>30) thì có thể thay t bằng Z.
* Quy tắc kinh nghiệm (Rule of Thumb): Khi n đủ lớn
2.3. Ước lượng khoảng tin cậy cho tỷ lệ
Tỷ lệ ước lượng với X là số lần “thành công” và n là số lần thử.
Từ s2X = np(1-p)
Phương sai của ước lượng tỷ lệ
Khi n đủ lớn thì
Vậy khoảng tin cậy 1-a của p có
Khoảng tin cậy (1-a) cho ước lượng tỷ lệ
2.4. Ước lượng khoảng tin cậy cho phương sai
Nhắc lại định lý
Vậy khoảng tin cậy 1-a của phương sai có
Khoảng tin cậy 1-a cho phương sai là
Với n = 20, a =5% thì các giá trị tới hạn của như sau
Nguồn: Excel/MegaStat/ Probability/ Chi-Square Distribution/…
3. Kiểm định giả thuyết thống kê
Nói chung có 3 cách kiểm định một giả thuyết thống kê
Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống)
Dùng trị thống kê kiểm định
Dùng giá trị p
3.1. Kiểm định giả thuyết thống kê cho giá trị trung bình (2 đuôi)
3.1.1. Kiểm định giả thuyết thống kê cho giá trị trung bình khi biết phưng sai của tổng thể
Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống)
Quy tắc quyết định
Nếu khoảng tin cậy nêu trên chứa mo thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu khoảng tin cậy nêu trên chứa mo thì có thể bác bỏ Ho với mức ý nghĩa a.
Dùng trị thống kê kiểm định
Nếu Ho đúng thì
Za/2 Z1-a/2
Miền bác bỏ Miền chấp nhận Miền bác bỏ
Quy tắc quyết định đối với trường hợp a = 5%
Quy tắc quyết định
Nếu Zc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu Zc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a.
Dùng giá trị p
Giả sử chúng ta tính được Zc = 1.28. Vì 1.28 nằm ở miền chấp nhận nên chúng ta không thể bác bỏ Ho.
Nếu đặt diện tích ngoài giá trị Zc là p/2 thì chúng ta thấy p>a. Cụ thể trong trường hợp này
p = 2*P(Z>1.28) = 2*0.1 = 0.2
Quy tắc quyết định
Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu p thì có thể bác bỏ Ho với mức ý nghĩa a.
3.1.1. Kiểm định giả thuyết thống kê cho giá trị trung bình khi không biết phương sai của tổng thể
Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống)
Quy tắc quyết định
Nếu khoảng tin cậy nêu trên chứa mo thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu khoảng tin cậy nêu trên chứa mo thì có thể bác bỏ Ho với mức ý nghĩa a.
Dùng trị thống kê kiểm định
Nếu Ho đúng thì
Nếu chọn a = 5%, ứng với n = 20 thì t19,a/2 = -2.093 và t19,1-a/2= 2.093
t19,a/2 t19,1-a/2
Miền bác bỏ Miền chấp nhận Miền bác bỏ
Quy tắc quyết định đối với trường hợp a = 5%
Quy tắc quyết định
Nếu tc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu tc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a.
Dùng giá trị p
Giả sử chúng ta tính được tc = 1.066. Vì 1.066 nằm ở miền chấp nhận nên chúng ta không thể bác bỏ Ho.
Nếu đặt diện tích ngoài giá trị tc là p/2 thì chúng ta thấy p>a. Cụ thể trong trường hợp này
p = 2*P(t>1.066) = 2*0.15 = 0.3
Quy tắc quyết định
Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu p thì có thể bác bỏ Ho với mức ý nghĩa a.
3.2. Kiểm định giả thuyết thống kê về phương sai (2 đuôi)
Hy vọng bạn đọc đã quen với 3 cách kiểm định thống kê qua hai ví dụ về kiểm định giá trị trung bình. Từ đây tôi chỉ trình bày vắn tắt kết quả.
Từ
Chúng ta có 3 cách kiểm định giả thuyết thống kê như sau
Ước lượng khoảng tin cậy 1-a cho phương sai
Nếu khoảng tin cậy này chứa thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a.
Trị thống kê kiểm định là
Miền chấp nhận là
Nếu nằm trong miền chấp nhận thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a.
Giá trị p
Nếu pthì thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a.
3.3. Kiểm định giả thuyết thống kê về tỷ lệ (2 đuôi)
Khoảng tin cậy 1-a cho tỷ lệ
Nếu khoảng tin cậy này chứa thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a.
Trị thống kê kiểm định ~N(0,1) nếu Ho đúng.
Nếu Zc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu Zc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a.
Giá trị p
Nếu pthì thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a.
3.4. Kiểm định 1 đuôi
3.4.1. Kiểm định giá trị trung bình trường hợp biết độ lệch chuẩn tổng thể (1 đuôi phải)
Trị thống kê kiểm định , chọn a = 5% thì Z1-a = Z95% = 1.64
Miền chấp nhận Miền bác bỏ
Nếu Zc Z1-a thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a.
3.4.2. Kiểm định giá trị trung bình trường hợp biết độ lệch chuẩn tổng thể (1 đuôi trái)
Trị thống kê kiểm định , chọn a = 5% thì Za = Z5% = -1.64
Miền bác bỏ Miền chấp nhận
Nếu Zc Z1-a thì không thể bác bỏ Ho với mức ý nghĩa a.
Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a.
3.4.2. Các kiểm định giá một đuôi khác.
Các kiểm định một đuôi khác cũng có cách thức tương tự. Hy vọng bạn tự xây dựng được.
4. Ví dụ bằng số trên phần mềm MegaStat
Khảo sát điểm môn Lý Thuyết Thống Kê của 20 sinh viên được chọn ngẫu nhiên trong khoá 6 chúng ta nhận bảng số liệu như sau.
STT
Điểm LTTK
Giỏi
1
9
1
2
8
1
3
7
0
4
7
0
5
8
1
6
9
1
7
5
0
8
9
1
9
10
1
10
7
0
11
7
0
12
5
0
13
6
0
14
6
0
15
8
1
16
5
0
17
7
0
18
6
0
19
10
1
20
9
1
4.1. Ước lượng điểm
Ước lượng điểm cho trung bình và phương sai của Điểm LTTK như sau
Excel/ MegaStat/ Descriptive Statistics/ InputRange: Điểm LTTK
Ước lượng điểm cho tỷ lệ sinh viên đạt loại giỏi (8 điểm trở lên)
Excel/ MegaStat/ Descriptive Statistics/ InputRange: Giỏi
4.2. Kiểm định giả thuyết thống kê cho giá trị trung bình
Hai đuôi
Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 8, Alternative: not equal, t-test, Display 95% confidence/OK.
Kết quả kiểm định
Cả ba cách kiểm định đều cho kết quả là không đủ cơ sở để bác bỏ Ho với mức ý nghĩa 5%.
Đuôi phải
Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 6, Alternative: greater than, t-test/OK.
Kết quả kiểm định là có bằng chứng thống kê để bác bỏ Ho với mức ý nghĩa 5%.
Đuôi trái
Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 7, Alternative: less than, t-test/OK.
Kết quả kiểm định là không bác bỏ Ho (với mức ý nghĩa 5%)
4.3. Kiểm định giả thuyết thống kê cho phương sai
Hai đuôi
Excel/ MegaStat/ Hypothesis Tests/ Chi-square Variance Test/ Input Range: Điểm LTTK, Hypothesized mean: 7, Alternative: not equal, Display 95% confidence/OK.
Bạn hãy tự rút ra kết luận.
Sau đây là các kết xuất của kiểm định một đuôi
Đuôi phải
Đuôi trái
Kết xuất
Kết xuất
Kết luận: ?
Kết luận: ?
4.4. Kiểm định giả thuyết thống kê cho tỷ lệ
Excel/ MegaStat/ Hypothesis Tests/ Proportion vs. Hypothesed Value/ Obsered (p=0.45, n=20), Hypothesized (p=0.7), Alternative: not equal, Display 95% confidence/OK.
Kết luận: ?
Kiểm định 1 đuôi
Đuôi phải
Đuôi trái
Kết xuất
Kết xuất
Kết luận: ?
Kết luận: ?
5. Lời kết
Có sự liên thông giữa 3 môn XSTK, LLTK và KTL. Bạn phải nắm vững các khái niệm xác suất, đặc biệt là các hàm phân phối xác suất dẫn xuất từ phân phối chuẩn, bạn mới có thể hiểu được thống kê suy diễn của LLTK. Nếu bạn hiểu LLTK thì KTL là môn khá thú vị. Khi đó bạn không còn quá bận tâm về kỹ thuật thống kê (ước lượng, kiểm định) mà tập trung phân tích bản chất quan hệ giữa các biến số kinh tế.
Yan can cook, you too. Yan có thể nấu ăn thì bạn có thể.
Riêng tôi thì không chắc chắn lắm về khoản làm bếp, mặc dù rất thích xem Yan biểu diễn.
Chúc thành công!
Các file đính kèm theo tài liệu này:
- Cơ sở lý thuyết cho thống kê suy diễn.doc