Đề tài Ước lượng và kiểm định trong thống kê nhiều chiều

Lưu ý rằng |R| trong (4.37) chạy từ 0 đến 1. Nếu các biến số không tương quan (trong mẫu), chúng ta có R = I và |R| = 1. Mặt khác, nếu hai hoặc nhiều hơn các biến có quan hệ tuyến tính, R sẽ không có hạng đầy đủ và chúng ta có |R| = 0. Nếu các biến số tương quan cao hơn, |R| s ẽ là gần đến 0; nếu tương quan là rất nhỏ, |R| sẽ được gần đến 1. Điều này có thể được minh họa khi cho p = 2:

pdf165 trang | Chia sẻ: nguyenlam99 | Lượt xem: 872 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Ước lượng và kiểm định trong thống kê nhiều chiều, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Lớp 1 Độ sâu Số lượng Lớp 2 Khoảng cách Độ sâu Số lượng Số lượng Độ sâu Bảng 3.4 : chiều sâu tối đa của lổ rổ và số lổ rổ tương ứng của sự ăn mòn kim loại Như vậy ta có, ví dụ như ( )1 73 31'y ,= , ( )1 51 35'x ,= và ( )1 1 1 22 4' ' 'd y x ,= − = − . Tương tự như thế cho 15 vector khác ta được : Từ (1.20) ta có : Vì ta bác bỏ giả thiết và kết luận về sự khác nhau của hai lớp 1 và 2 trong hiệu ứng về sự ăn mòn của chúng. 2 2 0 05 2 1410 819 8 197. , ,.T T= > = . 0 0:μdH = 3. 8 Kiểm định thêm thông tin : Trong phần này, ta xem xét hai mẫu độc lập, như trong mục 3.4.2. Ta bắt đầu cơ bản với véc tơ y (p × 1) đo được trên mỗi một đơn vị mẫu và yêu cầu vector phụ x (p × 1) là đo được, thêm vào y (trên cùng một đơn vị) sẽ tăng đáng kể sự độc lập __________________________________________________________________ 114 Chương 3 của hai mẫu như biểu diễn bởi . Thật sự không cần thiết để ta thêm vào các biến mới. Ta có thể quan tâm đến sự xác định cho dù một số các biến mà ta đã có được dư thừa trong sự hiện diện của các biến khác trong điều kiện của việc tách nhóm. Ta có các biểu diễn nhóm quan tâm của các liên quan bởi x cho biểu diễn có lợi. 2T Giả thiết là hai mẫu lấy từ tổng thể có phân phối chuẩn nhiều chiều với một ma trận hiệp phương sai duy nhất. Nghĩa là : 1 2 111 12 11 12 1 , ,..., yy y x x x n n ⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎜⎜ ⎟ ⎜ ⎟ ⎜⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎟⎟ từ phân phối ( )1,μp qN + ∑ 1 2 221 22 21 22 2 , ,..., yy y x x x n n ⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎜⎜ ⎟ ⎜ ⎟ ⎜⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎟⎟ từ phân phối ( )2,μp qN + ∑ ở đây 11 1 1 1 μy μ x μ yi i x E ⎛ ⎞⎛ ⎞= = ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠ , 222 2 2 μy μ x μ yi i x E ⎛ ⎞⎛ ⎞= = ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠ 1 2 1 2 cov cov y y x x yy yxi i i i xy xx ∑ ∑⎛ ⎞⎛ ⎞ ⎛ ⎞∑ = = = ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟∑ ∑⎝ ⎠ ⎝ ⎠ ⎝ ⎠ Ta phân chia vector trung bình mẫu và ma trận hiệp phương sai như sau : 1 1 y x ⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠ , 2 2 y x ⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠ , S S S S S yy yx pl xy xx ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ ở đây S pl là ma trận hiệp phương sai tổ hợp từ hai mẫu. Ta muốn kiểm định giả thiết là và có dư thừa từ việc tách thành hai nhóm, đó là, có thêm q biến không đóng góp đáng kể bất cứ điều gì ngoài những thông tin đã có sẵn trong y 1x 2x 1 và y2 cho tách các nhóm. Điều này là dựa trên tinh thần của một mô hình rút gọn đủ kiểm định trong hồi quy. Tuy nhiên, ở đây ta đang làm việc với một nhóm của các biến phụ thuộc như sự tương phản vào nhóm của các biến độc lập trong các thiết lập hồi quy. Do đó,cả y và là vector con của các biến x __________________________________________________________________ 115 Chương 3 phụ thuộc. Trong thiết lập này, các biến độc lập sẽ là nhóm các biến 1 và 2 tương ứng với và . 1μ 2μ Ta không yêu cầu nếu x có thể chia thành hai nhóm đầy đủ từ chính nó. Nhưng cho dù là chúng bổ sung khoảng cách trừ khoảng cách đã đạt được từ . Nếu y x đã độc lập từ , ta sẽ có y 2 2 2p q pT T T+ q= + , nhưng điều này là không chặt, bởi vì chúng tương quan. Ta phải so sánh 2p qT + cho tập hợp đầy đủ các biến ( )1 2 1 2, , ..., , , , ...,p qy y y x x x với 2pT dựa trên giảm tập hợp đến ( )1 2, , ..., py y y . Ta thấy rằng sự phát triển từ 2pT đến 2 p qT + là có ý nghĩa. ' 1 2 1 22 11 2 1 2 1 21 2 y y y y S x x x x p q pl n nT n n − + ⎡ ⎤ ⎡⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞= − − ⎤⎢ ⎥ ⎢⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟+ ⎥⎢ ⎥ ⎢⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎥⎣ ⎦ ⎣ ⎦ (3.23) Với , nếu giảm tập hợp của p biến là : 2T ( ) ('2 1 2 1 2 1 2 1 2 )1y y S y yp yn nT n n −= −+ y − (3.24) Kiểm định thống kê có ý nghĩa của việc phát triển từ 2pT đến 2 p qT + được cho bởi : ( ) ( ) 2 22 2x y p q p p T T T v p v T + −= − + (3.25) có phân phối như . Ta bác bỏ giả thiết của phần dư của nếu 2,q v pT − x ( )2 2, ,x y q v pT Tα −≥ . Từ công thức (3.7), ( )2 x yT có thể chuyển đến thống kê như sau : F 2 2 2 1 p q p p T Tv p qF q v T + −− − += + (3.26) có phân phối như là , và ta bác bỏ giả thiết nếu . 1,q v p qF − − + 1,q v p qF F − − +≥ __________________________________________________________________ 116 Chương 3 Trong cùng trường hợp 1 2 2v n n= + − . Chú ý rằng hệ số bậc tự do thứ nhất trong cả (3.25) và (3.26) cùng là số của x , hệ số thứ hai trong (3.25) là bởi vì thống kê là được điều chỉnh đến p biến trong v p− y . Để chứng minh trực tiếp thống kê được định nghĩa trong (3.26) có phân phối ta có thể dùng sự tương quan cơ bản từ mô hình hồi quy nhiều chiều : F ( )( ) ( ) 2 2 , 1 2 1 1 p q p q v p q p q R R v p q F R q + − − + + − − − += − (3.27) ở đây 2p qR + là bình phương tương quan nhiều chiều từ mô hình đầy đủ p q+ các biến độc lập, 2pR từ mô hình giảm với p biến độc lập. Nếu ta giải quyết 2R trong các điều kiện của từ công thức (3.16) và thế nó vào công thức (3.27) ta dễ dàng thu được kiểm định thống kê trong (3.26). 2T x 1q =Nếu ta quan tâm đến hiệu quả của việc thêm vào một đơn biến thì và cả (3.25), (3.26) giảm đến : ( ) ( ) 2 22 2y p q p p T T t x v p v T + −= − + (3.28) sẽ bác bỏ giả thiết của phần dư của x nếu ( )2 2 2 1, ,y v p v pt x t Fα α ,− −≥ = . Ví dụ 3.7 : Ta dùng dữ liệu về trắc nghiệm tâm lý ở Bảng 3.2 để minh họa kiểm định trên vector con. Ta bắt đầu sự kiểm định ý nghĩa của và cao hơn, ở bên kia thì là và . (trong kí hiệu của phần này thì và trở thành 3y 4y 1y 2y 3y 4y 1x và 2x . Cho những vector con với 2p = và 2q = . Giá trị của 2p qT + cho tất cả bốn biến tính bởi (3.23) và thu được kết quả từ ví dụ 1.3 là 97 . Cho và ta nhận được từ (3.24) kết quả : 6015. 1y 2y __________________________________________________________________ 117 Chương 3 Từ (3.25) kiểm định thống kê là : Ta bác bỏ giả thiết rằng bị thừa vì . Ta kết luận rằng thêm vào một ý nghĩa số lượng của sự phân tách đến ( 3 4 'x ,y y= ) ) 2 0 01 2 6042 955 10 137. , ,. .T> = ( 3 4 'x ,y y= ( )1 2 'y ,y y= . Để kiểm định hiệu ứng của mỗi một biến cho việc ghép ba biến khác, ta dùng (3.28). Trong trường hợp này 3p = 62v = , và . Ở đây, . 59v p− = 2 1 97 6015.pT + = 2pT trong mỗi trường đều dựa trên ba biến còn lại, ví dụ như cho biến dựa trên ba biến và , và 2 90 8348.pT = 1 3,y y2y 4y ( )2 2 1 3 4 2 612, , .t y y y y = . Kết quả được cho ở bảng sau : Biến __________________________________________________________________ 118 Chương 3 Khi ta so sánh bốn giá trị kiểm định thống kê này với giá trị tới hạn , ta thấy rằng mỗi một biến trừ tạo mẫu ý nghĩa đến phân phối . Chú ý rằng đóng góp nhiều nhất, kế đến là và sau cùng là . Những kết quả khác nhau được cho bởi hàm phân biệt thô trong ví dụ 3.5 nhưng với giả thiết là hàm phân biệt đã chuẩn hóa. 2 0 025 59 4 002. , .t = 2y 1y2T 3y 4y 3. 9 Phân tích hình thể : Nếu y là phân phối ( )μ,pN ∑ và các biến trong y là đo được (đo trong cùng một đơn vị, tương đương với các biến, như khối dữ liệu thăm dò trong bảng 3.5), ta mong muốn so sánh các kỳ vọng 1 2, , ..., pμ μ μ trong μ . Điều này được quan tâm khi một đo lường lấy trên cùng một đơn vị khảo sát tại p lần liên tiếp. Những tình huống như vậy thường được gọi tắt là đo lường lặp các tiên nghiệm hoặc đường tăng trưởng. Các mô hình thu được từ tọa độ của 1 2, , ..., pμ μ μ , như tung độ và số điểm kết nối được gọi là một hình thể, ta thường vẽ đường thẳng nối các điểm ( )11,μ ,( )22,μ ,...,( ), pp μ . Phân tích hình thể là phân tích các hình thể hay so sánh về hai hoặc nhiều hình thể. Trong phân tích đường tăng trưởng, các biến được đo được tại cùng khoảng thời gian, các hồi đáp có một trật tự tự nhiên. Trong phân tích hình thể, nơi phát sinh từ các biến kiểm định thực tế thường không có trật tự tự nhiên. Khác biệt này không phải lúc nào cũng thực hiện giữa đo lường lặp các tiên nghiệm của cùng một biến thông qua thời gian và hình thể của một số phân tích các biến đáp ứng khác nhau trên cùng một cá thể. 3. 9. 1 Phân tích hình thể một mẫu : Ta bắt đầu thảo luận của phân tích về vector trung bình μ từ một mẫu đơn. Một đồ thị của μ trong Hình 3.3 dưới đây được hình thành bằng cách nối các điểm ( )11,μ ,( )22,μ ,...,( ), pp μ : __________________________________________________________________ 119 Chương 3 Trung bình Các biến Hình 3.3 : Phân tích một vector trung bình Để so sánh các trung bình 1 2, , ..., pμ μ μ trong μ . Giả thiết cơ bản là sự phân tích về mức độ bằng nhau và tính đơn điệu Giả thiết : 0 1 2: ... pH μ μ= = = μ đối thiết : 1 : j kH μ μ≠ cho một số j k≠ Dữ liệu ma trận Y nêu trong công thức (1.2) chương 1 . Ta không thể dùng phân tích phương sai một biến để kiểm định giả thiết 0H bởi vì các cột trong Y là không độc lập. Để có một tiếp cận nhiều chiều tương quan các biến. Trước tiên ta biểu diễn 0H 1p − như là sự so sánh : 1 2 2 3 0 1 0 0 : 0p p H μ μ μ μ μ μ− −⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟−⎜ ⎟ ⎜ ⎟=⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟− ⎝ ⎠⎝ ⎠ # # Hoặc như : 1 2 1 3 0 1 0 0 : 0p H μ μ μ μ μ μ −⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟−⎜ ⎟ ⎜ ⎟=⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟− ⎝ ⎠⎝ ⎠ # # __________________________________________________________________ 120 Chương 3 Hai sự biểu diễn này có thể được viết dưới dạng : 0 1:C μ 0H = và , ở đây C0 2:C μ 0H = 1 và C2 là ma trận ( )1p x p− : 1 1 1 0 0 0 1 1 0 0 0 0 1 C −⎛ ⎞⎜ ⎟−⎜ ⎟= ⎜ ⎟⎜ ⎟−⎝ ⎠ " " # # # # " , 2 1 1 0 0 1 0 1 0 1 0 0 1 C −⎛ ⎞⎜ ⎟−⎜ ⎟= ⎜ ⎟⎜ ⎟−⎝ ⎠ " " # # # # " Trong thực tế, bất kì ma trận C ( )( )1p x p− có hạng 1p − như vậy với Cj 0= có thể dùng cho giả thiết 0 :Cμ 0H = để biểu diễn giả thiết 0 1 2: ... pH μ μ= = = μ . Nếu Cj 0= và mỗi dòng của C có tổng bằng 0 thì sự kết hợp tuyến tính ,ci 1 1 2 2 ,c μ ...i i i ipc c c pμ μ= + + + μ được gọi là một sự tương phản trong μ nếu tổng các hệ số là 0, nghĩa là nếu 0ijj c =∑ , 1p − tương phản trong Cμ phải là độc lập tuyến tính để biểu diễn giả thiết 0 1 2: ... pH μ μ μ= = = như . Vậy 0 :Cμ 0H = ( ) 1Crank p= − . Từ mẫu , ta thu được ước lượng 1 2y ,y ,...,yn y và S của tổng thể cho tham số μ và . Để kiểm định giả thiết ∑ 0 :Cμ 0H = ta biến đổi từng đến ((p-1)x1). Từ công thức (1.46) và (1.48) chương 1 ta có vector trung bình mẫu và ma trận hiệp phương sai của 1 2y , , , ...,i i n= z Cyi = i 1 2z Cy ; , ,...,i i i n= = là z Cy= và tương ứng. 'zS CSC= Nếu y có phân phối ( )μ,pN ∑ thì từ tính chất 1b trong mục 1.6.4 chương 1, z Cy= có phân phối ( )'Cμ,C CpN ∑ . Như vậy, khi đúng thì 0 :Cμ 0H = Cy có phân phối ( )'0,C CpN ∑ và : ( ) ( ) ( ) ( ) ( )1'' ' 12 'CSCCy Cy Cy CSC CyT nn − −⎛ ⎞= =⎜ ⎟⎝ ⎠ (3.29) __________________________________________________________________ 121 Chương 3 có phân phối như 2 1 1,p nT − − . Ta bác bỏ giả thiết 0 :Cμ 0H = nếu 2 2 1 1, ,p nT Tα − −≥ 3. 9. 2 Phân tích hình thể hai mẫu : Giả hai nhóm độc lập hoặc các mẫu được kiểm định nhận cùng một tập hợp p biến hoặc cùng độ đo. Nếu các kiểm định này là so sánh được , ví dụ, tất cả đều trên trình tự từ 0 đến 100, các biến sẽ thường được kiểm định tương ứng.. Hơn nữa kiểm định giả thiết rằng 1μ μ2= . Ta hy vọng có nhiều đặc biệt hơn trong sự so sánh các phân tích thu được từ việc nối các điểm ( )1 1 2,μ , , , ...,jj j p= và ( )2 1 2,μ , , , ...,jj j = p . Có ba giả thuyết được quan tâm trong sự so sánh các phân tích của hai mẫu. Đầu tiên là những giả thiết về tọa độ các điểm cho trước, có hay không hai phân tích tương tự xuất hiện, hay chính xác hơn, chúng có song song? Ta minh hoạ giả thuyết này trong hìnhh 5.4. Nếu hai hình thể là song song, thì nhóm các vân đồng đều tốt hơn các nhóm khác trên tất cả các p kiểm định . Các giả thuyết song song có thể được định nghĩa trong điều kiện của hệ số góc. Hai hình thể là song song nếu hai hệ số góc cho từng phân đoạn đều giống nhau. Nếu hai hình thể là song song, hai số gia cho mỗi phân đoạn đều giống nhau, thì không cần thiết sử dụng hệ số góc thực để diễn tả những giả thuyết. Ta có thể so sánh đơn giản số gia từ một điểm đến điểm tiếp đó. Những giả thiết được như vậy, có thể được diễn tả như sau : 01 1 1 1 2 2 1, ,: j j jH jμ μ μ μ− −− = − cho 2 3, , ...,j p= hoặc : 12 11 22 21 13 12 23 22 0 1 1, 1 2 2, 1 : p p p p H μ μ μ μ μ μ μ μ μ μ μ μ− − − −⎛ ⎞ ⎛⎜ ⎟ ⎜− −⎜ ⎟ ⎜=⎜ ⎟ ⎜⎜ ⎟ ⎜⎜ ⎟ ⎜− −⎝ ⎠ ⎝ # # ⎞⎟⎟⎟⎟⎟⎠ cũng có thể được viết lại như sau : 01 1 2:Cμ CμH = với ma trận : __________________________________________________________________ 122 Chương 3 1 1 0 0 0 1 1 0 0 0 0 1 C −⎛ ⎞⎜ ⎟−⎜ ⎟= ⎜ ⎟⎜ ⎟−⎝ ⎠ " " # # # # " (a) Giả thiết là đúng (b) Giả thiết là sai Hình 3.4 : So sánh hai mẫu với giả thiết song song Từ hai mẫu : và ta thu được 111 12 1 y ,y ,...,y n 221 22 2y ,y ,...,y n 1y ,y2 và S pl như là một ước lượng của và 1 2μ ,μ ∑ . Tương tự trong hai mẫu kiểm định , ta giả thiết rằng mỗi một trong mẫu 1 có phân phối chuẩn 2T tes− t 1y i ( )1μ ,pN ∑ và mỗi một trong mẫu 2 đều có phân phối chuẩn 2y i ( 2 )μ ,pN ∑ . Nếu là một ma trận tương phản C ( )( )1p x p− cho trước thì Cy và Cy có phân phối 1i i2 ( )1 1 'Cμ ,C CpN − ∑ và ( )1 2 'Cμ ,C CpN − ∑ một cách tương ứng. Với giả thiết : thì vector ngẫu nhiên 01 1 2:Cμ Cμ 0H − = 1Cy Cy− 2 có phân phối chuẩn ( )( )1 11 1'0,C CpN n− ∑ + 2n và : ( ) ( ) ( ) ( ) 1 '2 ' 1 2 1 2 1 2 ' 1' '1 2 1 2 1 2 1 2 1 1Cy Cy CS C Cy Cy y y C CS C C y y pl pl T n n n n n n − − ⎛ ⎞⎛ ⎞= − + −⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠ ⎡ ⎤= − −⎣ ⎦+ (3.30) __________________________________________________________________ 123 Chương 3 là phân phối như . Chú ý rằng số chiều 1 2 2 1, 2p n nT − + − 1p − là số dòng của . Từ lập luận của mục 3.5 ta dẫn đến sự tương tự như sau. Nếu giả thiết C 01H bị bác bỏ thì ta được phép kiểm định trên một biến riêng lẻ với từng thành phần của ( )1 2C y y− . Tương ứng như vậy ta có thể tính hàm phân biệt : ( ) ( )1' 1 2a CS C C y ypl −= − (3.31) cho từng hệ số góc khác nhau góp phần lớn vào quyết định bác bỏ giả thiết 01H trong sự hiện diện của các thành phần khác của ( )1 2C y y− . Trong trường hợp việc chuẩn hóa các thành phần của , như được đề nghị trong phần 1.5 là cần thiết, bởi vì các biến được giả thiết là có tính đối xứng . Véc tơ a là một (p-1) × 1, tương ứng đến p-1 phân đoạn của hình thể. Vì vậy, nếu thành phần thứ hai của a , ví dụ, là lớn nhất trong giá trị tuyệt đối, thì sự phân kỳ trong hệ số góc giữa hai hình thể trên phân đoạn thứ hai đóng góp phần lớn vào quyết định bác bỏ giả thiết a 01H . Nếu các dữ liệu được bố trí như trong Bảng 3.6 dưới đây thì ta nhìn thấy chân dung của một mô hình ANOVA (phân tích phương sai) hai chiều. Một đồ thị của các trung bình thường được tạo ra trong một ANOVA hai chiều ; thiếu tương ứng song song với tương tác giữa hai yếu tố. Do đó, giả thiết 01H là tương tự với nhóm của các kiểm định (biến) với giả thiết tương tác. __________________________________________________________________ Kiểm định các biến Nhóm 1 Nhóm 2 Bảng 3.6 : Dữ liệu phân bố cho phân tích hình thể hai mẫu 124 Chương 3 Tuy nhiên, thông thường ANOVA giả thuyết cho sự độc lập của các quan sát hiện không xét ở đây bởi vì các biến (kiểm định) là tương quan. ANOVA với giả thuyết độc lập và thuần nhất của các biến sẽ yêu cầu ( ) 2cov y Iσ= ∑ = . Do đó các kiểm định của 01H không thể được thực hiện bằng cách sử dụng phương pháp tiếp cận ANOVA đơn biến vì 2Iσ∑ ≠ . Do vậy, ta tiến hành với các phương pháp tiếp cận đa chiều bằng cách sử dụng . 2T Giả thuyết thứ hai được quan tâm trong hai hình thể so sánh là : có hay không hai tổng thể hoặc các nhóm là cân bằng ? Giả thuyết này tương ứng với một nhóm (tổng thể ) chính có hiệu lực trong ANOVA tương tự. Ta có thể diễn đạt giả thiết này, thuật ngữ các cấp độ trung bình của nhóm 1 so với mức trung bình của nhóm 2. 11 12 1 21 22 2 02 ... ... : p pH p p μ μ μ μ μ+ + + + + += μ Điều này có thể được biểu diễn bởi : ' '02 1 2: μ μH j j= Nếu 01H đúng thì 02H là Hình 3.5a. Nếu 02H là sai thì hai phân tích là khác nhau từ một hệ số (cho rằng 01H là đúng ) như ở Hình 3.5b (a) giả thiết là đúng (b) giả thiết là sai Hình 3.5 : Giả thiết 02H của hiệu quả nhóm cân bằng, giả định song song Giả thiết 02H có thể đúng, trong khi 01H là không chắc đúng. Do đó, mức độ trung bình tổng thể 1 có thể bằng với mức trung bình của tổng thể 2 mà không có hai hình thể song song, như minh họa trong Hình 3.6. Trong trường hợp này, __________________________________________________________________ 125 Chương 3 "nhóm chính hiệu lực" là một số khó giải thích, tương tự như trường hợp của các ANOVA hai chiều, nơi mà hiệu ứng khó khăn hơn để mô tả sự hiện diện của ý nghĩa các giao điểm. Tuy nhiên, việc kiểm tra vẫn còn có thể cung cấp những thông tin hữu ích nếu cẩn thận mô tả các kết quả được cung cấp : Mức trung trình Hình 3.5 : Giả thiết 02H của hiệu quả nhóm cân bằng, giả định không song song Để kiểm định giả thiết ( )'02 1 2: μ μH j 0− = , ta ước lượng ( )' 1 2μ μj − bởi ( )' 1 2y yj − có phân phối chuẩn ( )( )1 1 2n1 1'0 ,C CpN n− ∑ + 02 khi H đúng, ta đủ mạnh để dùng công thức : ( ) ( ) ' 1 2 ' 1 21 1 j y y jS jpl t n n −= + (3.32) và bác bỏ giả thiết 02H nếu 1 22 , 2n nt tα + −≥ Giả thiết thứ ba quan tâm tương ứng với kiểm định (hoặc biến) chính hiệu lực, là, các hình thể có bằng nhau hay không ? Giả sử sự song song ( 01H giả định là đúng), giả thiết sự "bằng nhau" có thể được biểu diễn như trong Hình 3.7. Nếu 01H không đúng, kiểm định có thể được tiến hành riêng cho từng nhóm bằng cách sử dụng kiểm định trong mục 3.9.1. Nếu 02H là đúng, hai hình thể trong hình 3.7a và 3.7b sẽ trùng nhau __________________________________________________________________ 126 Chương 3 Để trình bày giả thiết thứ ba với mô hình kiểm định phù hợp, ta lưu ý từ hình 3.7a rằng giá trị trung bình của hai nhóm là như nhau cho mỗi kiểm định ( ) ( ) ( )03 11 21 12 22 1 21 1 1: ...2 2 2 p pH μ μ μ μ μ μ+ = + = = + (3.33) Hoặc : ( )03 1 21: 2 C μ μ 0H + = (3.34) ở đây là ma trận C ( )1p x p− nghĩa là Cj 0= . Từ hình (3.7a) ta thấy rằng giả thiết 03H có thể được biểu diễn như là : 11 12 1... pμ μ μ= = = hoặc 21 22 2... pμ μ= = = μ hoặc : 03 1:Cμ 0H = và 2Cμ 0= Để ước lượng ( 1 212 )μ μ+ , ta dùng vector trung bình với cỡ mẫu lớn dựa trên một trung bình có trọng lượng như sau : 1 21 2 1 2 y yy n n n n += + (a) giả thiết là đúng (b) giả thiết là sai Hình 3.7 : Giả thiết 03H kiểm định cân bằng (các biến )giả định song song __________________________________________________________________ 127 Chương 3 Dễ dàng thấy rằng với giả thiết 03H ( và 01H ) thì ( )Cy 0E = và ( ) ( )1 2cov y n n= ∑ + . Thành ra Cy có phân phối chuẩn ( )( )1 1'0 ,C CpN n− ∑ + 2n và : ( ) ( ) ( )( ) ( )1'' ' 12 '1 2 1 2 CS C Cy Cy Cy CS C Cypl plT n nn n − −⎛ ⎞= = +⎜ ⎟⎜ ⎟+⎝ ⎠ (3.35) là phân phối như T khi mà cả 1 2 2 1, 2p n n− + − 01H và 03H là đúng. Có thể dễ thấy là 03H thì không bị ảnh hưởng bởi sự phân biệt trong các bậc của hình thể ( ảnh hưởng từ điều kiện của 02H ) Ví dụ 3.8 : Ta lần nữa sử dụng dự liệu về trắc nghiệm tâm lí ở Bảng 3.2 để minh họa phân tích hình thể hai mẫu. Các giá trị của 1y , 2y và S pl được tính ở ví dụ 3.3. Hình thể của hai vector trung bình 1 2,y là đồ thị trong hình 3.8 và ở đây không có tính song song. y Biến Hình 3.8 : Hình thể dữ liệu trắc nghiệm tâm lí của bảng 3.2 __________________________________________________________________ 128 Chương 3 Để kiểm định cho giả thiết 01 1 2:Cμ CμH = , ta dùng ma trận và tính được : Từ công thức (3.30) ta có : Nhờ so sánh giá trị này với (thu được nội suy từ bảng B.1). Ta bác bỏ giả thiết về sự song song. 2 0.01,3,62 12.796T = Trong hình 3.8 tính song song thiếu đáng kể nhất là ở phân đoạn thứ 2 và thứ 3. Điều này có thể được thấy qua giá trị tương đối lớn của thành phần 2 và 3 của : Như vậy phân đoạn thứ 3 góp phần lớn nhất trong quyết định từ chối sự hiện diện của hai phân đoạn còn lại. Để kiểm định mức độ cân bằng của giả thiết ' '02 1 2: jμ jμH = , ta sử dụng : So sánh giá trị này với 0.05,62 2.658t = ta bác bỏ giả thiết về mức độ cân bằng . __________________________________________________________________ 129 Chương 3 Để kiểm định giả thiết tính phẳng , ( )03 1 21: 2 C μ μ 0H + = , đầu tiên ta tính Sử dụng ma trận : Ta thu được từ công thức (3.35) Vì độ phóng đại này so với giá trị vì thế ta bác bỏ giả thiết về tính phẳng. Tuy nhiên, khi giả thiết song song bị bác bỏ, một tiếp cận thích hợp hơn sẽ được kiểm định cho mỗi một trong hai nhóm phân biệt về tính phẳng , từ (3.29) ta có : 2 0.01,3,62 12.796T = Cả hai đều vượt trội so với , ta thu được kết quả đáng kể từ thiếu tính phẳng. 2 0.01,3,31 14.626T = __________________________________________________________________ 130 Chương 4 CHƯƠNG 4: KIỂM ĐỊNH GIẢ THIẾT TRÊN MA TRẬN HIỆP PHƯƠNG SAI 4. 1 Giới thiệu : Ta biết rằng việc kiểm định giả thiết có liên quan đến cấu trúc phương sai và hiệp phương sai.Các kiểm định thường được thực hiện để kiểm tra các giả định liên quan đến các kiểm định khác. Trong mục 4.2 - 4.4, bao gồm ba loại hình cơ bản của giả thuyết: (1) ma trận hiệp phương sai có cấu trúc riêng, (2) hai hoặc nhiều ma trận phương sai bằng nhau, và (3) chắc chắn thành phần của ma trận phương sai là 0, do đó kéo theo tính độc lập tương ứng của các biến ngẫu nhiên (chuẩn nhiều chiều). Trong hầu hết trường hợp, chúng ta sử dụng xấp xỉ tỉ số hợp lí. Kết quả thống kê kiểm định thường liên quan đến tỉ số xác định của các ma trận hiệp phương sai mẫu với giả thiết không và với đối thiết khác không. 4. 2 Kiểm định mô hình dự kiến cho ∑ : Trong phần này, các thảo luận được trình bày với điều kiện là ma trận hiệp phương sai S thu được từ mẫu đơn. Tuy nhiên, các kiểm định có thể được áp dụng cho ma trận phương sai một mẫu S Epl vE= thu được bằng cách hợp nhất một số mẫu khác. Để cho phép một trong hai khả năng trên, các bậc tự do của tham số được chỉ định bởi tham số ν. Đối với một mẫu 1v n= − ; với ma trận hiệp phương sai hợp nhất ( )1 11k ki ii iv n n k N= == − = − =∑ ∑ k− . 4. 2. 1 Kiểm định giả thiết H0: 0∑ = ∑ Chúng ta bắt đầu cơ bản kiểm định giả thiết 0 :H 0∑ = ∑ với đối thiết . Giả thiết ma trận hiệp phương sai 0 :H ∑ ≠ ∑0 0∑ là một giá trị mục tiêu của ∑ hoặc là giá trị mặc định từ một giá trị tiên nghiệm. Lưu ý rằng là hoàn toàn được quy định cụ thể tại H 0∑ 0, trong khi μ không được xác định. __________________________________________________________________ 131 Chương 4 Để kiểm định giả thiết H0, ta chọn mẫu ngẫu nhiên n vectors quan sát từ 1 2 ny ,y ,...,y ( )μ,pN ∑ và tính S. Để xem nếu S là khác nhau đáng kể từ 0∑ , ta dùng các thống kê kiểm định sau như một hiệu chỉnh của tỉ số hợp lí : ( )10 0ln ln S tr Su v p−⎡ ⎤= ∑ − + ∑ −⎣ ⎦ (4.1) ở đây v đại diện cho bậc tự do của S, ln là logarithm tự nhiên (cơ số e), và tr là trace (tổng các thành phần trên đường chéo chính) của ma trận. Lưu ý rằng nếu S = Σ0 thì u = 0; hơn nữa u đồng biến với "khoảng cách" giữa S và Σ0 Khi ν là lớn, thống kê u trong (4.1) là phân phối xấp xỉ như (2 1 1 2 p pχ ⎡ ⎤+⎢ ⎥⎣ ⎦) nếu H0 đúng. Đối với v kích thước vừa, 1 21 2 1 6 1 1 'u p v p u ⎡ ⎤⎛ ⎞= − + −⎢ ⎥⎜− +⎝ ⎠⎟⎣ ⎦ (4.2) là xấp xỉ tốt hơn cho phân phối (2 1 1 2 p pχ )⎡ ⎤+⎢ ⎥⎣ ⎦ . Ta bác bỏ H0 nếu u hay u’ là lớn hơn (2 1 1 2 , p pχ α⎡ ⎤+⎢⎣ ⎦)⎥ . Lưu ý rằng bậc tự do cho thống kê-χ2 là ( 1 1 2 p p + ) và là tham số khác biệt trong Σ. Ta có thể nhấn mạnh u trong điều kiện của giá trị riêng 1 2, , ..., nλ λ λ của ( )10S −∑ , bởi chú ý rằng ( )10tr S −∑ và [ ]0ln ln S∑ − trở thành : ( )10 1 tr S p i i λ− = ∑ =∑ (cho bất kì ma trận vuông A có giá trị riêng 1 2, , ..., nλ λ λ thì ( ) 1 tr A p i i λ = =∑ ) và 1 1 0 0 0 1 ln ln S ln ln S ln S ln p i i λ− − = ⎛ ⎞∑ − = − ∑ − = − ∑ = − ⎜⎝ ⎠∏ ⎟ (4.3) Từ đó (4.1) có thể được viết lại như sau : __________________________________________________________________ 132 Chương 4 ( ) 1 11 ln ln p p p i i i i i ii u v p v pλ λ λ λ = == ⎡ ⎤⎛ ⎞ ⎡ ⎤= − + − = − −⎢ ⎥⎜ ⎟ ⎢ ⎥⎣ ⎦⎝ ⎠⎣ ⎦∑ ∑∏ (4 .4) Đồ thị của hàm số y = x - lnx cho thấy rằng x - ln x ≥ 1 ∀x > 0, dấu bằng xảy ra khi x = 1. Do đó ( ) 1 ln p i i i pλ λ = − >∑ và u > 0 Giả thuyết rằng các biến là độc lập và có phương sai đơn vị, có thể được kiểm định bằng thiết lập đơn giản 0 :H ∑ = I 0 I∑ = trong (4.1) 4. 2. 2 Kiểm định tính cầu Giả thiết rằng các biến trong y là độc lập và có cùng phương sai có thể biểu diễn như giả thiết 1 2, , ..., ny y y 2 0 :H Iσ∑ = với đối thiết 21 :H Iσ∑ ≠ . Cho mẫu ngẫu nhiên có phân phối chuẩn 1 2y ,y ,...,yn ( )μ,pN ∑ , tỉ số hợp lí để kiểm định giả thiết 20 : IH σ∑ = là : ( )( ) 2S LR tr S n p p ⎡ ⎤⎢ ⎥= ⎢ ⎥⎣ ⎦ (4.5) Trong một số trường hợp mà chúng ta đã xem xét trước đó, tỉ số hợp lí là hàm đơn giản của một thống kê kiểm định như F, T2. Tuy nhiên, LR trong (4.5) không làm giảm tiêu chuẩn thống kê, và ta dùng đến một xấp xỉ cho các phân phối của nó. Điều này thể hiện rằng đối với tỉ số hợp lí thống kê LR thì ( )2ln LR− xấp xỉ phân phối 2vχ (4.6) cho n lớn, ở đây ν là tổng số các tham số trừ cho ước lượng với sự thu hẹp trên H0. Từ tỉ số hợp lí thống kê trong (4.5), ta thu được ( ) ( )( )2 S ln LR ln ln tr S pn n p ⎡ ⎤⎢ ⎥− = − = −⎢ ⎥⎣ ⎦ u ở đây __________________________________________________________________ 133 Chương 4 ( ) ( ) 2 S LR tr S p n p p u = = (4.7) Vì cho bất kì ma trận vuông A có giá trị riêng 1 2, , ..., nλ λ λ thì ( ) 1 tr A p i i λ = =∑ và 1 A n i i λ = =∏ nên u trở thành : ( )11 pp ii pp ii p u λ λ = = = ∏∏ (4.8) ở đây 1 2, , ..., pλ λ λ là giá trị riêng của S. Một cải tiến hơn của -nlnu được cho bởi 22 2 6 ' lnp pu v p ⎛ ⎞+ += − −⎜⎝ ⎠ u⎟ (4.9) ở đây ν là bậc tự do của S. Thống kê u’ có xấp xỉ phân phối χ2 với ( )1 1 1 2 p p + − bậc tự do. Ta bác bỏ H0 nếu ( )2 1 1 12' ,u p pχ α⎡ ⎤> + −⎢ ⎥⎣ ⎦ . Như đã lưu ý trước đó, bậc tự do trong xấp xỉ χ2 bằng tổng số của số lượng các tham số trừ tham số ước lượng H0. Số lượng các tham số trong ∑ là (1 122 p p p p⎛ ⎞ )+ = +⎜ ⎟⎝ ⎠ , và việc mất 1 bậc tự do là vì ước lượng của σ2. Ta thấy từ (4.8) và (4.9) nếu mẫu iλ đều bằng nhau, u=1 và u’ = 0. Khi đó, thống kê trở thành kiểm định các giả thiết về sự bằng nhau các giá trị riêng của tổng thể. Để kiểm định giả thiết 20 ':C C IH σ∑ = , hãy sử dụng CSC’ của S trong (4.7) và sử dụng (p-1) thay p trong (4.7) - (4.9) vào bậc tự do cho phân phối χ2. Ví dụ 4.1 : Chúng ta sử dụng dữ liệu trong Bảng 1.3 để minh họa các kiểm định tính cầu. Năm biến xuất hiện các biến sẽ đối xứng, và giả thiết H0: μ1 = μ2 = = μ5 __________________________________________________________________ 134 Chương 4 được quan tâm. Ta kì vọng các biến là tương quan, và H0 thường được kiểm định bằng cách sử dụng một xấp xỉ nhiều chiều. Tuy nhiên, 2Iσ∑ = hoặc 2'C C Iσ∑ = thì giả thiết H0: μ1 = μ2 = = μ5 có thể được kiểm định ANOVA một biến với F-test. Tuy nhiên trong giới hạn của luận văn ta không thể trình bày chi tiết vấn đề này. Đầu tiên ta kiểm định 20 :H Iσ∑ = . Ma trận hiệp phương sai S thu được từ ví dụ 1.3 chương 1. Từ công thức (4.7) ta có Sau đó từ công thức (4.9), với n = 11 và p = 5, ta có : Xấp xỉ χ2-test với ( )1 1 1 1 2 p p 4+ − = bậc tự do. Từ đó ta so sánh u’ = 26,177với và bác bỏ 20 05 14 23 68. , .χ = 20 : IH σ∑ = . Để kiểm định 20 ':C C IH σ∑ = , chúng tôi sử dụng ma trận tương phản trực chuẩn sử dụng CSC’ của S và với p - 1 = 4 cho bốn hàng của C, ta thu được __________________________________________________________________ 135 Chương 4 Đối với bậc tự do, ta có ( )( )1 4 5 1 9 2 − = , và giá trị quan trọng là . Do vậy, ta không bác bỏ giả thiết 20 05 9 16 92. , .χ = 20 ':C C IH σ∑ = , và F-test của 0 1 2: ...H 5μ μ= = = μ có thể được hiệu chỉnh. 4. 2. 3 Kiểm định ( )20 1: IH + Jσ ρ ρ⎡ ⎤∑ = −⎣ ⎦ Ta biết rằng ANOVA một biến sẽ vẫn hợp lí nếu: 2 1 1 ρ ρ ρ ρ ρ ρσ ρ ρ ρ ρ ⎛ ⎞⎜ ⎟⎜∑ = ⎜⎜ ⎟⎝ ⎠ " " # # # " # " ⎟⎟ (4.10) ( )2 1 I+ Jσ ρ ρ⎡ ⎤∑ = −⎣ ⎦ (4.11) mà J là một ma trận vuông của 1, và ρ là tương quan tổng thể giữa hai biến bất kỳ. Mô hình phương sai bằng nhau và hiệp phương sai bằng nhau trong nhắc đến khác nhau như tính đơn điệu, đối xứng hỗn hợp hoặc mô hình tương quan ∑ Ta xem như giả thiết từ (4.10) là được cố định : 2 2 2 2 2 2 2 2 0 2 2 2 2 :H σ σ ρ σ ρ σ ρ σ ρ σ σ ρ σ ρ σ ρ σ ρ σ ρ σ ρ ⎛ ⎞⎜ ⎟⎜ ⎟∑ = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # # " # " Từ một mẫu, ta có được ma trận hiệp phương sai mẫu S. Ước lượng cận dưới 2σ và 2σ ρ của H0 được cho bởi 2 1 1 p jj j s s p = = ∑ và ( )2 1 1 jkj ks r p p ≠= − s∑ (4.12) tương ứng, ở đây sjj và các sjk là từ S. Vì vậy, s2 là trung bình của phương sai trên đường chéo của S, và là trung bình của ngoài đường chéo hiệp phương sai trong S. __________________________________________________________________ 136 Chương 4 Ước lượng của ρ có thể được lấy như 2r s r s= 2 . Sử dụng s2 và s2r trong (4.12), các ước lượng của cận dưới ∑ với H0 đó là ( ) 2 2 2 2 2 2 2 2 2 0 2 2 2 2 1 I J s s r s r s r s r s s r s rS s s r s r s r s ⎛ ⎞⎜ ⎟⎜ ⎟ r r⎡ ⎤= = − +⎣ ⎦⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # # " # " (4.13) Để so sánh S và S0, ta sử dụng các hàm tỉ số hợp lí sau: 0 S S u = (4.14) Điều này có thể được nhấn mạnh trong các dạng thay thế : ( ) ( ) ( )12 1 1 1 S p p u s r p− = r⎡ ⎤− + −⎣ ⎦ (4.15) Bằng cách tương tự với (4.9), kiểm định thống kê được cho bởi ( ) ( ) ( )( ) 2 2 1 2 3 6 1 4 ' ln p p p u v p p p ⎡ ⎤+ −⎢ ⎥= − − − + −⎢ ⎥⎣ ⎦ u (4.16) ở đây ν là bậc tự do của S.Các thống kê u’ được xấp xỉ ( )2 1 2 1 2p pχ ⎡ ⎤+ −⎣ ⎦ , và ta từ chối H0 nếu ( )2 1 2 1 2' ,u p pχ α⎡> +⎣ ⎤− ⎦ Lưu ý rằng 2 bậc tự do bị mất là do ước lượng của σ2 và ρ. Một kiểm định xấp xỉ thay thế chính xác hơn là khi p lớn và ν là quan hệ nhỏ hơn được cho bởi ( )2 2 1 1 1 2 ln c v F u γ γ γ γ γ − − −= − , ở đây __________________________________________________________________ 137 Chương 4 ( ) ( ) ( )( ) 2 1 2 1 2 3 6 1 p p p c v p p p + −= − + − 4 , ( )( ) ( ) 2 2 2 2 1 2 6 4 p p p c v p p − += + − ( )1 1 1 22 p pγ = + − , 12 22 1 2 c c γγ += − Ta bác bỏ giả thiết ( )20 1: I+H J⎡σ ρ ρ ⎤∑ = − ⎦ 1 2, ,F F nếu ⎣ α γ γ> . Ví dụ 4.2: Để minh họa kiểm định này, ta sử dụng các dữ liệu của việc cân nặng tĩnh cây bần từ các hướng giữ đông tây nam bắc, dữ liệu về cân nặng 28 cây từ bốn hướng giữ cho trong Bảng 4.1 sau; . Stt Cây Bảng 4.1: dữ liệu cân nặng của 28 cây bần giữ từ bốn hướng Một tiêu chuẩn ANOVA tiếp cận lặp lại biện pháp thiết kế sẽ hợp lí nếu (4.10) được cố định. Để kiểm tra giả thiết này, ta kiểm định giả thiết ( )20 1:H I+ Jσ ρ ρ⎡∑ = −⎣ ⎤⎦ . Các ma trận hiệp phương sai mẫu được cho bởi: , __________________________________________________________________ 138 Chương 4 từ đó ta thu được Từ (4.15) và (4.16), ta có Do ta bác bỏ giả thiết H20 05 819 511 15 5. ,. χ> = . 0 và kết luận rằng mô hình ∑ không có trong (4.10). 4. 3 So sánh các kiểm định ma trận phương sai : Một giả thiết cho T2 hoặc MANOVA (phân tích phương sai nhiều chiều so sánh kiểm định hai hoặc nhiều hơn vectors kì vọng mà tương ứng tổng thể ma trận hiệp phương sai là bằng nhau: 1 2 ... k∑ = ∑ = = ∑ . Giả thiết dưới đây, ma trận hiệp phương sai mẫu phản ánh một tổng thể và do đó hợp nhất để có được một ước lượng của . Nếu 1 2 kS ,S ,...,S ∑ 1 2 ... k∑ = ∑ = = ∑ là sai, sự khác biệt lớn trong có thể dẫn việc bác bỏ 1 2 kS ,S ,...,S 0 1 2: μ μ ... μkH = = = . Tuy nhiên, T2 và các kiểm định MANOVA là khá mạnh mẽ để không đồng nhất ma trận hiệp phương sai miễn là mẫu kích cỡ lớn và bằng nhau. Đối với các trường hợp khác, nó hữu ích để có một kiểm định bằng nhau cho các ma trận hiệp phương sai. Ta sẽ bắt đầu với việc nhắc lại trường hợp đơn biến. __________________________________________________________________ 139 Chương 4 4. 3. 1 Kiểm đinh phương sai bằng nhau Hai mẫu đơn biến với giả thiết 20 1:H 2 2σ σ= đối thiết 21 1 2:H 2σ σ≠ đã được kiểm định với 2 1 2 1 sF s = (4.17) ở đây 21s và 2 1s là các phương sai của hai mẫu. Nếu H0 là đúng, f có phân phối như , ở đây và là các bậc tự do của 1 2,v v F 1v 2v 2 1s và 2 1s (thường là n1-1 và n2-1). Lưu ý rằng 21s và 2 1s phải được độc lập, trong đó sẽ cố định, nếu hai mẫu được độc lập. Đối với trường hợp mẫu tổng quát, các thủ thuật khác nhau đã được đề xuất. Để kiểm định 2 2 0 1 2: ... kH 2σ σ σ= = = Ta tính toán ( ) 1 1 1 1 11 3 1 k k i i ii c k v v= = ⎡ ⎤⎢ ⎥= + −− ⎢ ⎥⎣ ⎦ ∑ ∑ , 2 2 1 1 k i ii k ii v s s v = = = ∑∑ , 2 2 1 1 ln ln k k i i i i m v s v = = ⎛ ⎞= −⎜ ⎟⎝ ⎠∑ ∑ is , ở đây 2 2 21 2, , ..., ks s s là phương sai mẫu độc lập với bậc tự do tương ứng. Thì 1 2, , ..., kv v v m c được xấp xỉ 2 1kχ − . Ta bác bỏ giả thiết H0 nếu 2 1,k m c α χ −> . Cho xấp xỉ F, ta sử dụng c và m, tính toán thêm 1 1a k= − , ( )2 2 1 1 ka c += − , 2 22 2 ab c a = − + __________________________________________________________________ 140 Chương 4 Sau đó ( )21 a mF a b m = − được xấp xỉ 1 2,a aF Ta bác bỏ giả thiết H0 nếu F> Fα.Lưu ý rằng giả thiết cho một trong hai dạng kiểm định trước là sự độc lập của 2 21 2, , ..., k 2s s s , ta sẽ cố định cho k mẫu ngẫu nhiên riêng biệt từ tổng thể. Kiểm định này do đó có thể không thích hợp để so sánh 11 22, , ..., pps s s trên đường chéo của S, vì vậy các sjj của S là tương quan. 4. 3. 2 Kiểm định bằng nhau các ma trận hiệp phương sai nhiều chiều : Cho tổng thể k chiều, giả thiết các ma trận hiệp phương sai là bằng nhau : 0 1 2: ... kH ∑ = ∑ = = ∑ Kiểm định cho hai nhóm được nghiên cứu như một trường hợp đặc biệt với đặt cách k = 2. Không có kiểm định chính xác như có trong các trường hợp đơn biến tương tự. Ta giả định rằng các mẫu độc lập về kích cỡ từ phân phối chuẩn nhiều chiều. Để thực hiện kiểm định, ta tính : 0 1:H ∑ = ∑2 20 1:H ∑ = ∑ 1 2, , ..., kn n n 1 22 2 1 2 2 S S ... S = S k ii v v v k v pl M ∑ 2 (4.19) Mà trong đó bởi , ma trận hiệp phương sai thứ i của mẫu, và 1i iv n= − Si S pl ma trận hiệp phương sai mẫu hợp nhất 1 1 S ES k i ii pl k Eii v vv = = = =∑∑ (4.20) Ở đây E được cho bởi : ( )( ) 1 1 1 1 1 1' ' 'E y y y y y y i in nk k ij ij ij ij i ii i i j i j i in= = = = = = − − = −∑∑ ∑∑ ∑ y yk k− và . Rõ ràng là ta phải có mỗi ν 1 k E i ii i v v n== =∑ ∑ i> p; hơn nữa 0iS = với mỗi i, và M sẽ là 0. Chính xác cả trên tỷ lệ phần trăm kết quả của __________________________________________________________________ 141 Chương 4 ( )2ln ln S Spl iM v k− = −∑ i v cho trường hợp đặc biệt . Ta có thể dễ dàng sửa đổi (4.19) và (4.20) để so sánh các ma trận hiệp phương sai cho các thành phần của một mô hình hai chiều bằng cách sử dụng 1 2 ... kv v v= = = = 1ij ijv n= − Các thống kê M là sự điều chỉnh tỷ số hợp lí thay đổi giữa 0 và 1, với giá trị gần lân cận 1 thiên về H0 trong (4.18) và giá trị gần 0 dẫn đến quyết định bác bỏ giả thiết H0. Không phải rõ ràng trực tiếp rằng M trong (4.19) xử lí theo cách này, và ta đưa ra tiên nghiệm theo lập luận sau . Trước tiên, ta lưu ý rằng (4.19) có thể biểu diễn : 1 22 2 1 2 k pl pl pl S S S ... S S S kv v M ⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟ ⎜ ⎟= ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ 2v pl (1.21) Nếu thì M = 1. Chênh lệch giữa các S1 2S S ... S Sk= = = = 1, S2,. . . , Sk tăng lên thì M xấp xỉ 0. Để thấy rõ điều này, ta lưu ý rằng các định thức của ma trận hiệp phương sai hợp nhất | Spl |, nằm một nơi nào đó gần giữa các | Si | . Cũng như tập hợp các biến tăng lên, tích vô hướng 1 2, , ..., nz z z ( )1z z giảm hơn ( )nz z tăng nó, ở đây z(1) và z(n) là giá trị nhỏ nhất và lớn nhất tương ứng. Ta minh họa điều này với hai tập số {4, 5, 6} và {1, 5, 9}, có cùng kì vọng nhưng độ lệch khác nhau. Nếu ta giả sử , thì thiết lập đầu tiên là 1 2 3v v v= = = v ( )( )( ) ( ) 2 2 2 1 4 5 6 0 8 1 1 2 0 96 5 5 5 . . . v v vM ⎡ ⎤⎛ ⎞⎛ ⎞⎛ ⎞ ⎡ ⎤= = =⎜ ⎟⎜ ⎟⎜ ⎟⎢ ⎥ ⎣ ⎦⎝ ⎠⎝ ⎠⎝ ⎠⎣ ⎦ và thứ hai, ( )( )( ) ( ) 2 2 2 1 5 9 0 2 1 1 8 0 36 5 5 5 . . . v v M ⎡ ⎤⎛ ⎞⎛ ⎞⎛ ⎞ ⎡ ⎤= =⎜ ⎟⎜ ⎟⎜ ⎟⎢ ⎥ ⎣ ⎦⎝ ⎠⎝ ⎠⎝ ⎠⎣ ⎦ = Trong M2, giá trị nhỏ nhất 0.2 làm giảm tỉ lệ tích hơn so với giá trị lớn nhất 1.8 làm tăng nó. __________________________________________________________________ 142 Chương 4 Box (1949, 1950) đưa ra χ2 và xấp xỉ F cho phân phối của M. Cũng có nhiều kiểm định xấp xỉ như M-test của Box được tham khảo đến. Cho xấp xỉ χ2, ta tính ( )( ) 2 1 1 1 1 1 2 3 1 6 1 1 k k i i ii p pc v pv= = ⎡ ⎤ k ⎡ ⎤+ −⎢ ⎥= − ⎢ ⎥+ −⎢ ⎥ ⎣ ⎦⎣ ⎦ ∑ ∑ (4.22) Từ đó là xấp xỉ ( )12 1 lnu c= − − M ( ) (2 1 1 12 k p pχ )⎡ ⎤− +⎢ ⎥⎣ ⎦ (4.23) ở đây M được xác định trong (4.19), và 1 1 1 1 2 2 ln ln S ln S k k i i i i i M v v = = ⎛ ⎞= − ⎜ ⎟⎝ ⎠∑ ∑ pl v (4.24) Ta bác bỏ H0 nếub u > χ2. Nếu 1 2 ... kv v v= = = = , thì đơn giản thành: 1c ( )( ) ( ) 2 1 1 2 3 1 6 1 k p p c kv p + + −= + (4.25) Để hiệu chỉnh số bậc tự do của xấp xỉ χ2, lưu ý rằng tổng số của cận dưới các tham số ước lượng với H1 là (1 12k p p )⎡ ⎤+⎢ ⎥⎣ ⎦ trong đó với H0 chúng ta ước lượng , nó có ∑ (1 1 22 p p p p⎛ ⎞+ = +⎜ ⎟⎝ ⎠ ) tham số. Sự khác biệt là ( ) ( ) 11 1 2 k p p⎡ ⎤− +⎢ ⎥⎣ ⎦ . Lượng (1 1 2 k p p⎡ +⎢⎣ ⎦) ⎤⎥ k phát sinh từ giả thiết rằng tất cả 1 2, , , ...,i i∑ = là khác nhau. Về kỹ thuật, H1 có thể bắt đầu i j∑ ≠ ∑ với i j≠ . Tuy nhiên, nói chung hầu hết các trường hợp tất cả khác nhau, và phân phối của M được suy ra một cách phù hợp. i∑ Cho xấp xỉ F, chúng ta sử dụng c1 từ (4.22) và tính toán thêm, __________________________________________________________________ 143 Chương 4 ( )( ) ( ) ( )2 221 1 1 2 1 1 6 1 k ki i ii p p c k v v= = ⎡ ⎤⎡ ⎤− + ⎢ ⎥= −⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎢ ⎥⎣ ⎦ ∑ ∑ (4.26) ( ) (1 1 1 12a k p p )= − + , 12 22 1 2aa c c += − , 1 11 1 1 c a ab a − −= 2 , 1 22 2 1 2c ab a − += Nếu , 22 1c c> được xấp xỉ (4.27) 12 lnF b= − M 1 2,a aF Nếu , 22 1c c< ( )2 21 2 2 1 2 ln ln a b MF a b M = + được xấp xỉ là (4.28) 1 2,a aF Trong cả hai trường hợp, ta bác bỏ H0 nếu F > Fα. Nếu , thì c 1 2 ... kv v v= = = = v 1 đơn giản hóa như trong (4.25) và c2 được đơn giản hóa thành ( )( )( )2 2 2 2 1 2 6 p p k k c k v 1− + + += M-test của Box được tính thường xuyên trong nhiều chương trình máy tính cho MANOVA. Tuy nhiên, Olson (1974) cho thấy M-test với các νi bằng nhau có thể tìm một vài dạng của sự không đồng nhất mà chỉ có tác động nhỏ trên kiểm định MANOVA. Kiểm định này cũng chính xác với vài dạng trực chuẩn. Ví dụ, nó chính xác với độ nhọn mà kiểm định MANOVA là khá mạnh mẽ. Do đó, M-test có thể báo hiệu sự không đồng nhất hiệp phương sai mà không phải là gây tổn hại đến kiểm định MANOVA.Do đó ta có thể không muốn tự động quy định ra tiêu chuẩn kiểm định MANOVA nếu M-test dẫn đến bác bỏ H0. Olson cho thấy dộ chệch và độ nhọn thống kê b1,p và b2,p có những hạn chế tương tự. __________________________________________________________________ 144 Chương 4 Ví dụ 4.3. Ta kiểm định giả thiết 0 1:H 2∑ = ∑ cho các dữ liệu tâm lí trong Bảng 3.2. Các ma trận hiệp phương sai S1, S2, và Spl đã được đưa ra trong ví dụ 3.3. Sử dụng những kết quả này, từ (4. 24) ta có được Để kiểm định chính xác, chúng ta so sánh 2 14 5ln . 61M− = với 19.74, giá trị tới hạn của nó được tra từ Bảng B3 (Phụ lục B). Cho xấp xỉ χ2, từ (4.25) và (4.23) ta tính được: Để xấp xỉ F-test, trước tiên ta tính toán: Từ ta dùng (4.27) để có được 21 10 005463 0 0048.c c= > = . 1 0 05 102 1 354 1 83. , ,ln . .F b M F ∞= − = < = __________________________________________________________________ 145 Chương 4 Vì vậy, cả ba kiểm định đều chấp nhận giả thiết H0. 4. 4 Kiểm định tính độc lập : 4. 4. 1 Độc lập của hai vector con : Giả sử các véc tơ quan sát được chia thành hai vector con quan sát, trong đó chúng ta đặt y và x, như trong mục 1.2.4.1, ở đây y là p×1 và x là q×1. Từ công thức (1.30), các phân vùng tương ứng của ma trận hiệp phương sai tổng thể là: yy y x xy x x ∑ ∑⎛ ⎞∑ = ⎜ ⎟⎜ ⎟∑ ∑⎝ ⎠ với phân vùng tương tự của S và R như trong (1.26): S S S S S yy y x xy x x ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ , R R R R R yy y x xy x x ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ Giả thuyết các độc lập của y và x có thể được diễn tả như 0 0 : 0 yy xx H ∑⎛ ⎞∑ = ⎜ ⎟∑⎝ ⎠ hoặc là 0 : 0yxH ∑ = Do đó, sự độc lập của y và x kì vọng là mọi biến trong y là độc lập của mọi biến trong x. Lưu ý là không có giới hạn trên yy∑ hoặc xx∑ Các thống kê kiểm định tỉ số hợp lí 0 : yxH 0∑ = cho bởi S R S S R Ryy xx yy xx Λ = = (4.30) có phân phối như 1, ,p q n q− −Λ . Ta bác bỏ giả thiết H0 nếu αΛ ≤ Λ . Như vậy, ta có một kiểm định chính xác cho 0 : yxH 0∑ = . Giá trị tới hạn cho của Wilks được cho trong Bảng A.9 [TL Rencher - Methods of Multivariate Analysis] bằng cách sử dụng và . Λ Hv = q q1Ev n= − − Do tính đối xứng của __________________________________________________________________ 146 Chương 4 S R S S R Ryy xx yy xx = Λ trong (4.30) cũng được phân phối như 1, ,p q n q− −Λ . Lưu ý rằng | Syy | | Sxx | trong (4.30) là một ước lượng của yy∑ xx∑ , từ : 11 11 22 22 0 A A 0 A A = = A nên được xác định khi . Do đó ∑ 0yx∑ = Λ của Wilks so sánh một ước lượng của không có hạn chế một ước lượng với giả thiết ∑ 0 : yxH 0∑ = . Ta có thể thấy một cách trực giác rằng | S | < | Syy | | Sxx | , chú ý là : 11 12 1 1 11 22 21 11 12 22 11 12 22 21 21 22 A A A A A A A A A A A A A A − −= − − = − Nên 1S S S S S Sxx yy yx xx xy −= − và là xác định dương, 1S S Syx xx xy− 1S S S S Syy yx xx xy yy −− < . Điều này có thể được minh họa cho trường hợp p = q = 1: ( )2 22 2 2 22S y yx y x yx y x yx x s s s s s s s s = = − < s khi 2yxs tăng, | S | giảm. Λ của Wilks trong (4.30) có thể biểu diễn trong điều kiện của vectơ riêng: (4.31) ( )2 1 1 s i i r = Λ = −∏ Ở đây s = min (p, q) và là giá trị riêng khác 0 của 2 'ir s 1 1S S S Sxx xy yy yx − − . Chúng ta cũng có thể sử dụng , giá trị riêng (khác 0) của là giống như 1 1S S S Syy yx xx xy − − 1 1S S S Syy yx xx xy − − 1 1S S S Sxx xy yy yx − − Số các giá trị riêng khác 0 là s=min(p,q), vì s là hạng của cả và 1 1S S S Syy yx xx xy − − 1 1S S S Sxx xy yy yx − − Các giá trị riêng kí hiệu vì chúng là những bình 2ir __________________________________________________________________ 147 Chương 4 phương tương quan chính tắc giữa y và x. Trong những trường hợp đặc biệt p = 1, (4.31) sẽ trở thành 2 21 1ir RΛ = − = − g quan bội giữa y và ( )1 2, , ..., qx x x . đây R2 là bình phương của tở ươn Ví dụ 4.4: Xét các dữ liệu bệnh tiểu đường trong Bảng 1.2. Có một phân vùng tự nhiên trong các biến, với y1 và y2 của quan sát nhỏ và x1, x2, và x3 của quan sát chính. Ta kiểm định độc lập của của y và x, nghĩa là, 0 : yxH 0∑ = . Từ ví dụ 1.2, các ma trận hiệp phương sai được phân chia là : . Để thực hiện kiểm định, ta tính : Vì vậy, chúng ta bác bỏ giả thiết của sự độc lập. Lưu ý việc sử dụng số 40 trong là của n-1-q=46-1-3=42. Đây là một phương pháp tiếp cận bảo toàn cho phép sử dụng bảng giá trị mà không có phép nội suy. 0 05 2 3 40. , , ,Λ 4. 4. 2 Sự độc lập của nhiều vectors con : Cho k tập hợp các biến sao cho y và ∑ được chia như sau 1 2 y y y yk ⎛ ⎞⎜ ⎟⎜= ⎜⎜ ⎟⎜ ⎟⎝ ⎠ # ⎟⎟ và 11 12 1 21 22 2 1 2 k k k k kk ∑ ∑ ∑⎛ ⎞⎜ ⎟∑ ∑ ∑⎜ ⎟∑ = ⎜ ⎟⎜ ⎟⎜ ⎟∑ ∑ ∑⎝ ⎠ " " # # # " __________________________________________________________________ 148 Chương 4 với pi các biến trong yi, với 1 2 ... kp p p p+ + + = .Lưu ý rằng không đại diện phân vùng nào của y, không phải là mẫu vectors ngẫu nhiên độc lập. Nhưng giả thuyết rằng nhóm vectors con độc lập nhau và có thể được biểu diễn với giả thiết 1 2y ,y , ,yk 1 2y ,y , ,yk 0 : i jH 0∑ = cho tất cả các i j≠ , hoặc (4.32) 11 22 0 0 0 0 0 : 0 0 kk H ∑⎛ ⎞⎜ ⎟∑⎜∑ = ⎜⎜ ⎟⎜ ⎟∑⎝ ⎠ " " # # # " ⎟⎟ Thống kê tỉ số hợp lí là 11 22 S S S ... Skk u = (4.33) 11 22 R R R ... Rkk = (4.34) với S và R có được từ mẫu ngẫu nhiên của n quan sát và được phân chia như ∑ ở trên, tương ứng . Lưu ý rằng mẫu thức ở (4.33) là định thức của S bị thu hẹp bởi H 1 2y ,y ,...,yk 0, có nghĩa là Si j 0= với mọi i j≠ . Các thống kê u không có phân phối của Wilks như trong (4.30) khi k = 2, nhưng là xấp xỉ χΛ 2 tốt để phân phối của nó được cho bởi ' lnu vc u= − (4.35) ở đây ( )3 211 2 312c afv= − + a (4.36) 2 1 2 f a= , 2 22 1 k i i a p p = = −∑ , 3 33 1 k i i a p p = = −∑ __________________________________________________________________ 149 Chương 4 và ν là bậc tự do của S hay R (xem tại phần đầu của mục 4.2). Ta bác bỏ giả thiết độc lập, nếu 2' , fu αχ> Bậc tự do, 2 1 2 f a= , phát sinh từ suy luận sau. Số tham số trong không bị giới hạn bởi các Giả thuyết là ∑ (1 1 2 p p )+ . Với giả thiết ở (4. 32), số các tham số trong mỗi là ii∑ (1 12 i ip p + ) , với tổng số là (1 1 1 2 k i ii p p= )+∑ . Sự khác biệt là : ( ) ( ) 2 21 2 2 2 2 2 1 1 11 1 2 2 2 1 1 2 2 2 k i i ii i i i i i i f p p p p p p p p ap p p p p p = ⎛ ⎞= + − + = + − −⎜ ⎟⎝ ⎠ ⎛ ⎞ ⎛ ⎞= + − − = − =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ∑ ∑ ∑ ∑ ∑ Ví dụ 4.5: Cho 30 nhãn hiệu sản phẩm của rượu vang Nhật Bản Seishu, Siotani, ...v.v... (1963) nghiên cứu mối quan hệ giữa y1 = hương vị, y2 = mùi, và : x1 = pH, x5 = trực tiếp giảm đường, x2 = nồng độ axít 1, x6 = tổng số đường, x3 = độ axít 2, x7 = rượu, x4 = độ sake, x8 = formyl-nitơ. Ta kiểm định độc lập của bốn tập con của các biến: Các ma trận hiệp phương sai mẫu là : __________________________________________________________________ 150 Chương 4 Bảng 4.2: Đo lường rượu Seishu __________________________________________________________________ 151 Chương 4 với S11 là 2 × 2, S22 là 3 × 3, S33 là 3 × 3, và S44 là 2 × 2. Trước tiên ta thu được : Với xấp xỉ χ2, ta tính được : Sau đó, u’ =-νc ln u = -(29)(0.838)ln(0.01627) = 100.122, kết quả này vượt quá , và ta bác bỏ giả thuyết của độc lập của bốn tập con. 20 001 37 69 35. , .χ = 4. 4. 3 Kiểm định độc lập cho tất cả các biến : Nếu tất cả các pi = 1 trong giả thiết (4.32) trong mục 4.4.2, trường hợp đặc biệt là tất cả các biến cùng độc lập, 0 0: jkH σ = với i j≠ , hoặc 11 22 0 0 0 0 0 0 0 : kk H σ σ σ ⎛ ⎞⎜ ⎟⎜ ⎟∑ = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # # " Không có giới hạn trên của các σjj. Với σjk = 0 với mọi i j≠ , tương ứng ρjk cũng là 0, và một dạng tương đương của giả thiết là: 0 : P IH ρ = , ở đây Pρ là ma trận tương quan tổng thể đã được xác định trong (1.24). Vì mọi pi = 1, thống kê (4.33) và (4.34) làm giảm __________________________________________________________________ 152 Chương 4 11 22 S R . ... pp u s s s = = (4.37) và (4.35) sẽ trở thành ( )1 2 5 6 ' lnu v p⎡= − − +⎢⎣ ⎦ u ⎤⎥ (4.38) trong đó có một xấp xỉ phân phối 2fχ , với ν là bậc tự do của S hoặc R (xem một nhận xét ở phần đầu của mục 4.2) và (1 1 2 f p p )= − là bậc tự do của χ2. Ta bác bỏ giả thiết H0 nếu 2' , fu αχ> . Chính xác cả tỷ lệ phần trăm các điểm của u’ để lựa chọn các giá trị của p và n được cho trong Bảng B4 (Mathai và Katiyar 1979). Số điểm tỷ lệ phần trăm giới hạn phân phối χ2 cũng được đưa ra để so sánh. Lưu ý rằng |R| trong (4.37) chạy từ 0 đến 1. Nếu các biến số không tương quan (trong mẫu), chúng ta có R = I và |R| = 1. Mặt khác, nếu hai hoặc nhiều hơn các biến có quan hệ tuyến tính, R sẽ không có hạng đầy đủ và chúng ta có |R| = 0. Nếu các biến số tương quan cao hơn, |R| sẽ là gần đến 0; nếu tương quan là rất nhỏ, |R| sẽ được gần đến 1. Điều này có thể được minh họa khi cho p = 2: 1 1 R r r = Ví dụ 4.6 : Để kiểm tra Giả thuyết 0 0: ,jkH j kσ = ≠ , với bộ dữ liệu thăm dò từ Bảng 1.3, ta tính được : Sau đó, từ (4.37) và (4.38), ta có __________________________________________________________________ 153 Chương 4 Với độ chính xác 0,01 giá trị quyết định cho u’ tra từ Bảng B4 là 23.75 và do đó ta bác bỏ giả thiết H0. Giá trị quyết định xấp xỉ χ2 cho u’ là , nên giả thiết H 2 0 01 10 23 21. , .χ = 0. bị bác bỏ. __________________________________________________________________ Phụ lục A TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống Kê Toán Học, NXB. ĐHQG Hà Nội, Hà Nội. [2] Đào Hữu Hồ (2001), Xác Suất Thống Kê, NXB. ĐHQG Hà Nội, in lần thứ 6, Hà Nội. [3] Nguyễn Bác Văn (1998), Xác Suất và Xử Lý Số Liệu Thống Kê; NXB. Giáo Dục, TP. Hồ Chí Minh. Tiếng Anh [4] Rencher, A.C. (2002), Methods of multivariate analysis, John Wiley & Sons, Inc., 605 Third Avenue, New York. [5] Wolfgang Hardle, Léopold Simar (2007), Applied Multivariate Statistical Analysis, Springer Berlin Heidelberg, New York. [6] Nigel Da Costa Lewis (2004), Applied Statistical Methods for Risk Management, John Wiley & Sons, Inc., Hoboken, New Jersey. [7] Rencher, A. C. (1998), Multivariate Statistical Inference and Applications, Wiley , New York. __________________________________________________________________ Bảng giá trị phân phối T2 - Hotelling Bảng B1 Phụ lục B B ậc tự d o, v __________________________________________________________________ Bảng giá trị phân phối T2 - Hotelling Bảng B1 Phụ lục B __________________________________________________________________ Bảng giá trị t - Bonferonni - 2 0 05, , .k vtα α = Bảng B2 Phụ lục B2 __________________________________________________________________ Kiểm định sự bằng nhau của hai ma trận hiệp phương sai Bảng B3 Phụ lục B ( )2ln ln S Spl iiM v k− = −∑ __________________________________________________________________ Kiểm định cho sự độc lập của p biến Bảng B4 Phụ lục B __________________________________________________________________

Các file đính kèm theo tài liệu này:

  • pdfuoc_luong_va_kiem_dinh_trong_thong_ke_nhieu_chieu_nhieu_tac_gia_165_trang_8217.pdf
Tài liệu liên quan