Bài giảng Ứng dụng tin học trong thiết kế thí nghiệm và xử lý số liệu

TRƯỜNG ĐẠI HỌC NÔNG LÂM HUẾ Phương pháp nghiên cứu nâng cao. Mở đầu Bài 1: Nhập số liệu Bài 2. Kiểm tra số liệu và định hướng phân tích Bài 3. Phân tích thống kê mô tả Bài 4. Phân tích phương sai Bài 5. Phân tích phương sai cho các kiểu thiết kế thí nghiệm khác nhau Bài 6. Áp dụng quy tắc ngẫu nhiên trong thiết kế thí nghiệm với một nhân tố Bài 7. Phân tích hồi quy

48 trang | Chia sẻ: tlsuongmuoi | Lượt xem: 10580 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Bài giảng Ứng dụng tin học trong thiết kế thí nghiệm và xử lý số liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

số liệu trong các kiểu thiết kế thí nghiệm khác như LS, SPLIT-PLOT và STRIP-PLOT. Trong phạm vi của chương trình đào tạo bậc đại học chúng tôi chỉ giới thiệu cách nhập số liệu của hai kiểu thiết kế thí nghiệm RCB và LS. Nguyên tắc cơ bản nhập số liệu trong các kiểu thiết kế thí nghiệm có sự khống chế sự sai khác ban đầu (RCB, LS, SPLIT-PLOT và STRIP-PLOT) là xem xét yếu tố khống chế như là một yếu tố thí nghiệm. Có nghĩa là mỗi một yếu tố khống chế sự sai khác cần một cột trong worksheet của excel. Chúng ta có thể nhập số liệu cho ví dụ 4 ở hình 4. Hình 4 trình bày cách nhập số liệu của 14 đơn vị thí nghiệm đầu. 9 Hình 4: Nhập số liệu trong trường hợp số liệu phân tổ bởi hai nhân tố theo kiểu thiết kế RCB Ví dụ 5. Một nhóm nghiên cứu đã tiến hành nghiên cứu năng suất (tấn/ha) của 3 giống ngô la i A, B, D và giống đối chứng C, trong một thiết kế thí nghiệm kiểu LS, kết quả thu được ở bảng 5. Hãy nhập số liệu để so sánh năng suất của các giống ngô. Bảng 5. Năng suất (tấn/ha) của các giống ngô A, B, D và C trong thí nghiệm thiết kế theo kiểu LS Năng suất hạt (tấn/ha) Số hàng Cột 1 Cột 2 Cột 3 Cột 4 10 1 1,640(B) 1,210(D) 1,425(C) 1,345(A) 2 1,457(C) 1,185(A) 1,400(D) 1,290(B) 3 1,670(A) 0,710(C) 1,665(B) 1,180(D) 4 1,565(D) 1,290(B) 1,655(A) 0,660(C) Chúng ta có thể nhập như sau (hình 5). Hình 5: Nhập số liệu trong trường hợp thiết kế thí nghiệm kiểu LS Tóm lại, nguyên tắc cơ bản của nhập số liệu để xử lý số liệu bằng phần mềm SPSS cũng như các phần mềm khác như GENSTAT và MINITAB là “mỗi đơn vị thí nghiệm nằm trong một hàng, mỗi biến nằm trong một cột”. BÀI 2. KIỂM TRA SỐ LIỆU VÀ ĐỊNH HƯỚNG PHÂN TÍCH Phân tích số liệu là việc làm rất đơn giản và nhanh chóng, do vậy chúng ta không cần thiết vội vàng phân tích số liệu. Với các yêu cầu của một thí nghiệm thông 11 thường trong nông nghiệp, phân tích số liệu có thể hoàn thành trong vài phút. Tuy nhiên, nếu không kiểm tra số liệu một cách cẩn thận thì việc xử lý số liệu có thể phải làm đi làm lại nhiều lần do sau khi hoàn thành xử lý số liệu, nhà nghiên cứu có thể phát hiện một số số liệu chưa được nhập chính xác. Tập hợp số liệu càng lớn bao nhiêu thì việc kiểm tra số liệu càng quan trọng bấy nhiêu. Mục đích cơ bản của việc kiểm tra số liệu là phát hiện ra các sai sót trong nhập số liệu và phát hiện các trường hợp ngoại lệ (outliner). Ngoài ra việc kiểm tra số liệu còn có thể giúp người nghiên cứu định hình được khuynh hướng của mối quan hệ giữa các biến nghiên cứu, từ đó lựa chọn phương án phân tích số liệu thích hợp. Việc kiểm tra số liệu có thể được thực hiện bằng nhiều cách khác nhau. Ví dụ sử dụng trình ứng dụng f ilter trong EXCEL, Box plot hoặc Scatter plot trong SPSS. 2.1. Kiểm tra số liệu bằng trình ứng dụng filter trong EXCEL Kiểm tra số liệu bằng cách sử dụng trình ứng dụng filter (lọc) có thể được thực hiện một cách dễ dàng và nhanh chóng, đặc biệt khi chúng ta có tập hợp số liệu nhỏ. Ví dụ 6. Hãy kiểm tra các số liệu đã nhập ở bảng 2 (ví dụ 2). Cần chú ý rằng đây là một tập hợp số liệu rất đơn giản chúng ta hoàn toàn có thể kiểm tra bằng mắt thường. Tuy nhiên từ các ví dụ đơn giản chúng ta cần khái quát hóa thành phương pháp kiểm tra số liệu cho mọi tập hợp số liệu khác nhau. Chúng ta có thể kiểm tra như sau:  Bước 1: Khởi động chức năng filter. Việc khởi động này có thể thực hiện như sau: Data-Filter-AutoFilter  Bước 2: Filter số liệu năng suất để phát hiện ra các trường hợp nhập sai hoặc các trường hợp ngoại lệ  Bước 3: Chọn số liệu được cho là sai hoặc ngoại lệ để phát hiện bản ghi (đơn vị thí nghiệm) nào chứa số liệu đó Từ hình 6 không có sai sót nào được phát hiện trong nhập số liệu. Giả sử chúng ta đã nhập sai số liệu của đơn vị thí nghiệm thứ nhất, thay vì nhập 3.853 chúng ta đã nhập thành 38.533. Từ hình 7, chúng ta có thể đặt nghi ngờ về độ chính xác của bản ghi có năng suất 38.533. 12 Hình 6. Kiểm tra số liệu bằng chức năng Filter Như vậy nếu nhìn vào hình 7 thì chúng ta có thể phát hiện bản ghi (đơn vị thí nghiệm) có năng suất 38.533. Chúng ta có thể di chuyển thẳng đến đơn vị thí nghiệm có chứa số liệu 38.533. Khi đó các đơn vị thí nghiệm khác sẽ bị ẩn (8). Màu sắc của filter bị thay đổi. Sự thay đổi màu sắc này báo hiệu tập hợp số liệu nghiên cứu đang bị filter (lọc). Nếu chúng ta muốn thao tác với toàn bộ số liệu thì chú ý phải bỏ chức năng filter. Điều này có thể thực hiện được bằng cách chọn ALL trong filter. Chức năng filter còn có thể giúp ta lựa chọn được các số liệu theo một số tiêu chí nào đó do chúng ta định ra. 13 Hình 7. Kiểm tra số liệu bằng chức năng Filter Hình 8. Kiểm tra số liệu bằng chức năng Filter 14 2.2. Kiểm tra số liệu bằng trình ứng dụng Box-plot hoặc Scatter Plot trong SPSS 3.2.1. Nạp số liệu từ EXCEL vào SPSS Sau khi đã nhập xong số liệu thì chúng ta có thể nạp số liệu vào SPSS để kiểm tra số liệu cũng như phân tích và xử lý số liệu. Việc nạp số liệu vào SPSS hoàn toàn đơn giản như việc mở một file số liệu. Chúng ta có thể tiến hành theo các bước sau đây:  Bước 1: Khởi động SPSS  Bước 2: Chọn file – Open Data (hình 9) Hình 9. Nạp số liệu vào SPSS  Bước 3: Tìm đến file excel chứa số liệu đã nhập và mở file (open). Chú ý: chỉ rõ loại file mà chúng ta muốn mở là file có đuôi XLS (file EXCEL). Khi muốn nạp số liệu từ file EXCEL vào SPSS, chúng ta phải tắt file EXCEL chứa số liệu. Ví dụ 9. Hãy nạp (input) số liệu ở ví dụ 2 từ EXCEL vào SPSS Sau khi nạp số liệu chúng ta sẽ có kết quả như ở hình 10 15 Hình 10. Nạp số liệu vào SPSS và kết quả nạp số liệu 2.2.2. Kiểm tra số liệu bằng trình ứng dụng Box -plot hoặc Scatter- Plot trong SPSS Thực chất của kiểm tra số liệu bằng trình ứng dụng Box-plot hoặc Scatter- Plot trong SPSS là vẽ đồ thị Box-Plot hoặc vẽ đồ thị Scatter - Plot. Như vậy, nếu chúng ta có thể kiểm tra số liệu bằng cách sử dụng hai loại đồ thị trên thì chúng ta cũng có thể vẽ các đồ thị khác theo ý muốn. Thực chất là chúng ta lợi dụng chức năng vẽ đồ thị để kiểm tra số liệu. Chúng tôi hy vọng rằng qua phần này người đọc có thể vẽ được các loại đồ thị bằng phần mềm SPSS và kiểm tra số liệu. Ví dụ 10. Hãy kiểm tra số liệu bằng đồ thị Box-plot trong SPSS bằng cách dùng tập hợp số liệu ở ví dụ 2 (bảng 2.). Chúng ta có thể làm theo các bước sau:  Bước 1: Nạp số liệu vào SPSS  Bước 2: Chọn Graph-Boxplot-Sinple (có thể chọn clustered trong trường hợp số liệu phân nhóm)  Bước 3: Chọn biến ở trục tung và biến ở trục hoành  Bước 4: Xem xét các trường hợp ngoại lệ từ đồ thị Box-plot 16 Hình 11. Đồ thị Box-Plot mô tả mối quan hệ giữa công thức phân bón và năng suất của lúa Qua đồ thị trên ta không thấy những giá trị ngoại lệ. Có thể hiểu một cách đơn giản là các giá trị nằm ngoài các đuôi của đồ thị Box-Plot thì nên được xem xét về tính chính xác cũng như có thể được xem xét như các trường hợp ngoại lệ. Ví dụ 11. Một nhóm nghiên cứu điều tra ảnh hưởng của tuổi của chủ hộ đến việc chấp nhận (Y) hay không chấp nhận (N) trồng giống ngô địa phương. Kết quả được thể hiện ở bảng 6. Hãy kiểm tra kết quả nhập số liệu. Bảng 6. Số liệu về ảnh hưởng của tuổi chủ hộ đến chấp nhận giống ngô địa phương Loại hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ N 48 24 36 12 10 N 17 36 48 36 6 Y 46 60 5 36 14 N 24 36 24 32 92 N 17 48 36 12 12 N 17 14 24 24 2 Y 24 36 60 5 8 Y 48 36 7,5 24 8 Y 168 5 4 24 5 N0 N1 N2 N3 N4 Công thức phân bón 2500 3000 3500 4000 4500 5000 5500 6000 6500 Năng suất 17 Y 40 30 60 36 36 N 6 5 48 24 8 Y 16 36 48 34 144 N 12 8 8 22 30 N 28 12 5 19 10 Y 46 12 72 36 7 Y 36 26 72 12 24 N 17 6 10 24 14 N 36 24 12 18 1 N 24 15 12 18 20 N 24 24 36 25 12 N 12 6 48 8 2 N 36 12 24 10 12 N 29 14 18 42 48 N 36 14 5 4 48 N 48 36 36 6 48 N 36 24 36 9 2 Y 48 24 36 60 30 N 36 24 36 46 12 N 12 12 60 24 12 N 84 6 8 32 15 N 9 36 7 92 10 Y 18 36 26 7 7 N 36 48 36 7 72 Y 60 24 22 7 30 N 15 36 18 8 60 Vẽ đồ thị kiểu Box-Plot, kết quả được trình bày ở hình 12. Qua hình 12. có thể đặt nghi ngờ vào một số bản ghi hay đơn vị thí nghiệm thứ 9, 212, 58, 79, 76, 204, 64, 191 và 30 trong file số liệu. Các số liệu đó có thể do sai sót khi nhập số liệu, cũng có thể là những trường hợp ngoại lệ, do vậy chúng ta cần kiểm tra lại những số liệu này. Cần đặc biệt chú ý là không được loại bỏ các số liệu này khi không có lý do chính đáng. Các trường hợp ngoại lệ thông thường làm cơ sở cho việc đề xuất ý tưởng nghiên cứu mới. Chúng ta có thể vừa kiểm tra số liệu vừa xem xét khuynh hướng của phân bố số liệu hay xem xét mối quan hệ giữa các biến. Điều này có thể được thực hiện thông qua đồ thị kiểu Scatter-Plot. Tiến trình vẽ đồ thị kiểu Scatter-Plot tuân theo các bước như sau : Graphs - Scatter- Simple. Sau đó chọn biến x và biến y. Chỉ chọn Simple khi ta muốn vẽ đồ thị đơn chỉ gồm một biến x và một biến y (Hình 13). 18 Hình 12. Đồ thị Box-Plot để kiểm tra số liệu Hình 13. Các bước vẽ đồ thị Scatter-Plot Hình 14 trình bày một ví dụ về đồ thị Scatter-Plot từ một tập hợp số liệu với 573 đơn vị thí nghiệm. Do tập hợp số liệu khá lớn cho nên chúng tôi không trình bày tập hợp số liệu. N Y loaiho 0 50 100 150 200 tu oi 58 64 30 204 191 79 76 9 212 19 Qua hình 14 ta có thể vừa kiểm tra số liệu vừa suy đoán mối quan hệ giữa các biến. Chúng ta có thể hoàn toàn nghi ngờ bản ghi/đơn vị thí nghiệm ở hàng 262 và 481 của file nhập số liệu là những trường hợp ngoại lệ, hoặc có thể chúng đã được nhập sai. 0 20 40 60 80 100 120 140 x 50 100 150 200 250 y1 262 481 Hình 14. Đồ thị Scatter-Plot biểu thị mối quan hệ giữa biến độc lập x và biến phụ thuộc y Mặt khác qua hình 14 ta thấy rằng khi x nhỏ thì khi x tăng thì y tăng, nhưng khi tiếp tục tăng x thì y sẽ không tăng nữa. Như vậy khi xem xét mối quan hệ giữa y và x chúng ta không thể dùng một hàm tuyến tính đơn thuần được. Tóm lại, có nhiều cách khác nhau để kiểm tra số liệu đồng thời định hình mối quan hệ giữa các biến nghiên cứu. Người làm nghiên cứu cần chú ý đến kiểm tra số liệu thật kỹ trước khi phân tích số liệu. BÀI 3. PHÂN TÍCH THỐNG KÊ M Ô TẢ Trong các chương trước chúng ta đã biết một trong những nội dung quan trọng nhất của thống kê mô tả là tính toán các tham số đặc trưng cho mức độ tập trung như trung bình, trung vị, và yếu số và các tham số đặc trưng cho mức độ phân tán như phương sai, độ lệch chuẩn, sai số chuẩn của số trung bình (sai số của số trung bình). Trong nội dung của chương này chúng tôi sẽ đề cập đến cách phân tích các tham số đó bằng trình ứng dụng descriptive statistics. Trong SPSS có rất nhiều trình ứng dụng có 20 thể tính toán được các tham số thống kê mô tả hay nói cách khác trình ứng dụng descriptive statistics có thể được thực hiện từ các trình ứng dụng khác, ví dụ từ trình ứng dụng General Linear Model hay Compare means. 3.1. Phân tích thống kê mô tả trong trường hợp tập hợp số liệu không phân nhóm Ví dụ 12. Hảy tính toán các tham số thống kê mô tả của năng suất lúa trong ví dụ 2. Chúng ta có thể thực hiện theo các bước sau :  Bước 1: Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng descriptive statistics (hình 15)  Bước 3 : Lựa chọn biến cần được thực hiện thống kê mô tả (hình 15)  Bước 4: Lựa chọn các tham số thống kê cần tính toán (hình 15) Hình 15. Phân tích thống kê mô tả khi số liệu không phân nhóm Trình ứng dụng descriptive statistics này có thể tính toán được một số tham số thống kê như trung bình (mean), sum (tổng), độ lệch chuẩn (Std. deviation), phương sai (variance), sai số của số trung bình (S.E. mean), khoảng biến động (range), giá trị nhỏ nhất (minimum) và giá trị lớn nhất (maximum). Một số tham số thống kê khác thông thể tính tự động từ trình ứng dụng này ví dụ trung vị. 21 Bảng 7. Kết quả phân tích thống kê mô tả số liệu ví dụ 2 n Range Min Max Sum Mean Std. Error Std. Deviation Variance 20 35927 2606 38533 130069 6503,45 1701,501 7609,345 57902132 3.2. Phân tích thống kê mô tả trong trường hợp tập hợp số liệu phân nhóm Có rất nhiều trình ứng dụng khác nhau có thể phân tích thống kê mô tả trong trường hợp số liệu phân nhóm ví dụ chúng ta có thể sử dụng Compare means hay General Linnear Model. Nói cách khác phân tích thống kê mô tả có thể được thực hiện với các phân tích khác như phân tích hồi quy và phân tích phương sai. Vídụ 13. Hãy tính toán các tham số thống kê mô tả của năng suất lúa theo các công thức phân bón khác nhau trong ví dụ 2. Ta có thể thực hiện theo các bước sau :  Bước 1 : Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng phân tích thống kê mô tả từ compare means ( so sánh các trung bình), hình 15. Hình 15. Phân tích thống kê mô tả từ compare means  Bước 3: Lựa chọn biến cần tính toán thống kê mô tả và biến phân nhóm (Hình 15).  Bước 4 : Lựa chọn các chỉ số tham số thống kê cần tính toán 22 Trình ứng dụng này có thể tính toán được rất nhiều tham số thống kê mô tả. Có thể nói rằng trình ứng dụng này có thể tính toán được hầu như toàn bộ các tham số thống kê mô tả. Kết quả phân tích thống kê mô tả ví dụ 13 được thể hiện ở bảng 8. Những kết quả này hoàn toàn có thể được copy từ kết quả đầu ra của SPSS sang các phần mềm khác như Microsoft Word, Excel hay Powerpoint. Cách thức copy hay cắt án hoàn toàn tương tự như trong Microsoft Word, Excel hay Powerpoint. Trong một số trường hợp, ví dụ khi ta muốn làm tròn số ta có thể copy vào Excel trước để làm tròn số, hay để tính toán thêm một tham số thống kê, sau đó copy qua các phần mềm văn bản khác để làm báo cáo. Bảng 8. Kết quả phân tích mô tả năng suất lúa ở các mức phân bón khác nhau CT phân bón Mean N Std. Deviation Median Std. Error of Mean Sum Min Max Range Variance Geo. Mean N0 3,1 4,0 0,5 3,0 0,3 12,5 2,6 3,9 1,2 0,3 3,1 N1 4,7 4,0 0,2 4,7 0,1 18,9 4,6 4,9 0,4 0,0 4,7 N2 4,5 4,0 0,4 4,5 0,2 17,8 3,9 4,9 1,0 0,2 4,4 N3 5,7 4,0 0,3 5,8 0,2 22,9 5,3 6,0 0,8 0,1 5,7 N4 5,8 4,0 0,2 5,9 0,1 23,3 5,5 6,0 0,5 0,0 5,8 Total 4,8 20,0 1,1 4,8 0,2 95,4 2,6 6,0 3,4 1,1 4,6 Trong đó Mean = Trung bình, N=số quan sát, Std.Deviation = Độ lệch chuẩn, Median = Trung vị, Std. Error of Mean = Sai số của số trung bình, Sum = Tổng, Min = Giá trị bé nhất, Max = Giá trị lớn nhất, Range = Khoảng biến động, Variance = Phương sai và Geometric Mean = Trung bình nhân. Ngoài ra, cho ví dụ 13 ta có thể phân tích thống kê mô tả từ trình ứng dụng General Linnear Model. Các bước như sau :  Bước 1 : Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng General Linear Model (hình 16)  Bước 3 : Khai báo biến phụ thuộc (dependent variables) và biến độc lập (fixed factors)(hình 16)  Bước 4 : Vào trình ứng dụng thống kê mô tả trong option (hình 16) Trình ứng dụng thống kê mô tả trong option không cho phép chúng ta lựa chọn các tham số thống kê mô tả cần tính toán mà luôn luôn cho kết quả mặc định. Kết quả đó bao gồm : Mean = Trung bình, Std. deviation = Độ lệch chuẩn, và N = Số lần lặp lại (Số đơn vị thí nghiệm nhận cùng một nghiệm thức). Một lưu ý là có rất ít các phần mềm cho phép mặc định tính CV% (hệ số biến dị). Do vậy để có thể tính được CV% 23 chúng ta cần phải tính tiếp sau khi đã có kết quả độ lệch chuẩn và trung bình. Kết quả phân tích thống kê mô tả của ví dụ 3 ứng dụng theo General Linear model được thể hiện ở bảng 9. Hình 16. Phân tích thống kê mô tả từ General Linear Model BÀI 4. PHÂN TÍCH PHƯƠNG SAI Phân tích phương sai là một trong những cách để kiểm tra giả thuyết, ngoài các cách khác như kiểm tra t, kiểm tra khi bình phương. Phân tích phương sai dựa trên hàm phân bố F. Bản chất của phân tích phương sai dựa trên sự sai khác giữa phương sai do yếu tố thí nghiệm gây nên và phưong sai do yếu tố ngẫu nhiên gây nên. Điều kiện để phân tích phương sai là số liệu trong mỗi công thức phân bố chuẩn và số liệu của các 24 công thức là đồng nhất về phương sai. Trong phạm vi bậc học ở đại học chúng tôi không giới thiệu kỹ thuật phân tích điều kiện để có thể phân tích phương sai. Kiểm tra giả thuyết nói chung và phân tích phương sai nói riêng tuân theo một số bước chính sau :  Nêu giả thuyết cần kiểm tra  Lựa chọn mức độ tin cậy α  Lựa chọn mẫu ngẫu nhiên từ quần thể và tính toán giá trị thống kê kiểm tra  Tra bảng phân bố xác suất  Quyết định hay chấp nhận giả thuyết kiểm tra Bảng 9. Kết quả phân tích mô tả năng suất lúa ở các mức phân bón khác nhau theo ví dụ 13. CT phân bón Mean Std. Deviation N N0 3,1 0,5 4 N1 4,7 0,2 4 N2 4,5 0,4 4 N3 5,7 0,3 4 N4 5,8 0,2 4 Total (tổng) 4,8 1,1 20 Tất cả các kiểm tra giả thuyết đều có thể được thực hiện bằng SPSS. Có một số trình ứng dụng có thể thực hiện phân tích phương sai. Ở đây chúng tôi giới thiệu phân tích phương sai từ trình ứng dụng General Linear Model. Ví dụ 14. Hãy phân tích ảnh hưởng của các công thức phân bón đến năng suất lúa trong ví dụ 2 (bảng 2). Quá trình phân tích phương sai có thể tiến hành theo các bước sau đây :  Bước 1 : Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 16.). Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc. Chú ý: biến phụ thuộc ở đây là biến định lượng.  Bước 3 : Khai báo biến phụ thuộc (dependent variables) và biến độc lập (fixed factors)(hình 16.). Nếu chúng ta muốn có kết quả phân tích thống kê mô tả thì ta thực hiện bước 4.  Bước 4 : Vào trình ứng dụng thống kê mô tả trong option (hình 16.) 25  Bước 5: Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì có thể tiến hành phân tích post hoc (chú ý: post hoc chỉ là một cách để thực hiện đa so sánh, còn có các hình thức khác như so sánh có kế hoạch trực giao). Nếu chấp nhận H0, thì không cần thực hiện post hoc (hình 17). Chúng ta cũng chỉ tiến hành phân tích post hoc khi chúng ta có hơn 2 công thức thí nghiệm. Để phân tích post hoc chúng ta cần thực hiện qua 2 bước tiếp theo các bước nêu trên.  Bước 5.1. Lựa chọn biến độc lập cần phân tích post hoc  Bước 5.2. Lựa chọn loại kiểm tra post hoc thích hợp Hình 17. Phân tích phương sai và phân tích post hoc từ General Linear Model Trong phân tích post hoc chúng ta có nhiều lựa chọn khác nhau như LSD (Sai khác ít nhất có ý nghĩa), Turkey hay còn gọi là HSD (Sai khác thực có ý nghĩa), Scheffe hay Duncan. Tùy theo tình huống mà lựa chọn một phân tích post hoc thích hợp. Trong trường hợp ví dụ 14 này chúng ta có thể lựa chọn LSD. Kết quả phân tích phương sai được trình bày ở bảng 10. Một số kết quả quan trọng mà chúng ta quan tâm bao gồm  Intercept = CF = Chỉ số hiệu chỉnh  Source = Các nguồn giải thích sự biến động của biến động của biến phụ thuộc. Trong ví dụ này chính là các nguồn gây nên sự biến động của năng suất lúa. Có hai nguồn biến động cơ bản tạo nên tổng biến động (total) của năng suất lúa. Đó là biến động do yếu tố thí nghiệm gây nên (công thức phân bón) và biến động do yếu tố ngẫu nhiên (tất cả những yếu tố còn lại = error)  Sum of square = SS= Tổng các bình phương. Một cách cụ thể hơn là tổng các bình phương độ lệch giữa các giá trị quan sát và trung bình tổng thể. 26 Bảng 10. Kết quả phân tích phương sai một nhân tố ở ví dụ 14 Kiểm tra ảnh hưởng giữa các nhóm (Tests of Between-Subjects Effects) Biến phụ thuộc (Dependent Variable): Năng suất Source S S df M S F Sig. Corrected Model 19,25 4,00 4,81 38,25 0,00 Intercept 454,95 1,00 454,95 3615,56 0,00 Công thức phân bón 19,25 4,00 4,81 38,25 0,00 Error 1,89 15,00 0,13 Total 476,09 20,00 Corrected Total 21,14 19,00 R Squared=R2 = ,911 (Adjusted R Squared =R2 điểu chỉnh= ,887)  df = độ tự do  MS = Trung bình bình phương, chính là ước tính của phương sai. Trung bình bình phương chính là tỷ số giữa tổng bình phương và độ tự do. Ví dụ trung bình bình phương của công thức phân bón là 4,81, chính là tỷ số 19,25/4.  F = Giá trị F tính toán. Mỗi giá trị F chính là tỷ số giữa mỗi trung bình bình phương và trung bình bình phương ngẫu nhiên. Ví dụ giá trị F tính toán của công thức phân bón là 38,25, chính là tỷ số 4,81/0,13.  Sig. = Mức độ tin cậy (Significance)  SST otal = SSIntercept +SSYếu tố thí nghiệm+SSerror = SSIntercept +SSCôn g thức phân bón+SSerror  SSCorrected total=SSYếu tố thí nghiệm + SSerror = SSCông thức phân bón + SSerror Qua bảng 10 ta thấy rằng công thức phân bón đã ảnh hưởng đến năng suất lúa, có nghĩa là bác bỏ giả thuyết H0 đồng thời chấp nhận giả thuyết HA. Các công thức phân bón khác nhau mang lại năng suất lúa khác nhau. Do chấp nhận giả thuyết HA cho nên ta tiến hành phân tích post hoc để chỉ ra năng suất lúa ở công thức phân bón nào thực sự khác với công thức nào. Kết quả phân tích post hoc được thể hiện ở bảng 14.  Mean difference= Sự sai khác giữ 2 trung bình cần so sánh.  Std. Error = SD= Sai số chuẩn của sự sai khác giữa 2 giá trị trung bình = Standard error of difference = sqrt (2xMSE/n).  SQRT() là hàm để tính căn bậc 2  MSE là ước tính của phương sai của sai số, trong bảng 10 MSE là 0,13  n = số lần lặp lại, trong ví dụ này n =4 27 Bảng 11. Kết quả phân tích post hoc ví dụ 14 Đa so sánh (Multiple Comparisons) Biến phụ thuộc (Dependent Variable): Năng suất LSD = (M1-M2)/sqrt[MSE(1/n1+1/n2] (I) CT phân bón (J) CT phân bón Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval Lower Bound Upper Bound N0 N1 -1,60 0,25 0,00 -2,13 -1,06 N2 -1,34 0,25 0,00 -1,87 -0,80 N3 -2,59 0,25 0,00 -3,13 -2,06 N4 -2,70 0,25 0,00 -3,23 -2,16 N1 N0 1,60 0,25 0,00 1,06 2,13 N2 0,26 0,25 0,31 -0,27 0,80 N3 -0,99 0,25 0,00 -1,53 -0,46 N4 -1,10 0,25 0,00 -1,63 -0,56 N2 N0 1,34 0,25 0,00 0,80 1,87 N1 -0,26 0,25 0,31 -0,80 0,27 N3 -1,26 0,25 0,00 -1,79 -0,72 N4 -1,36 0,25 0,00 -1,90 -0,83 N3 N0 2,59 0,25 0,00 2,06 3,13 N1 0,99 0,25 0,00 0,46 1,53 N2 1,26 0,25 0,00 0,72 1,79 N4 -0,11 0,25 0,68 -0,64 0,43 N4 N0 2,70 0,25 0,00 2,16 3,23 N1 1,10 0,25 0,00 0,56 1,63 N2 1,36 0,25 0,00 0,83 1,90 N3 0,11 0,25 0,68 -0,43 0,64  Sig. = Mức độ tin cậy  95% Confidence Interval = Khoảng tin cậy 95%  Lower Bound = Khoảng tin cậy cận dưới  Upper Bound = Khoảng tin cậy cận trên Chúng ta có thể tính toán giá trị LSD bằng cách áp dụng công thức tính LSD trong bảng 11 ở trên. Trong đó MSE là ước tính phương sai, M1 là trung bình quan sát của công thức thứ nhất, M2 là trung bình quan sát của công thức thứ 2. n1 là số lần lặp lại của công thức thứ nhất và n2 là số lần lặp lại của công thức thứ 2. 28 Qua bảng 11 ta thấy rằng năng suất lúa ở các công thức phân bón N1 đến N4 cao hơn so với năng suất lúa ở công thức đối chứng N0 (P <0,05). Tương tự như vậy ta có thể so sánh năng suất lúa của công thức N1 so với đối chứng và các công thức phân bón còn lại. Ta thấy rằng năng suất ở công thức phân bón N1 cao hơn năng suất ở công thức phân bón N0 (P 0,05) nhưng thấp hơn các công thức phân bón còn lại (P<0,05). Ta có thể suy diễn tương tự cho các công thức phân bón N2, N3 và N4. Chúng ta hoàn toàn có thể sử dụng các kiểm tra post hoc khác như HSD với cách nhận diện kết quả hoàn toàn tương tự. Tóm lại, phân tích phương sai hoàn toàn có thể thực hiện một cách đơn giản và có thể thực hiện đồng thời với các phân tích khác như phân tích thống kê mô tả, phân tích post hoc. BÀI 5. PHÂN TÍCH PHƯƠNG SAI CHO CÁC KIỂU THIẾT KẾ THÍ NGHIỆM KHÁC NHAU Trong phạm vi của bậc đại học chúng tôi đề cập đến cách phân tích số liệu của 3 kiểu thiết kế thí nghiệm cơ bản: Thiết kế thí nghiệm ngẫu nhiên hoàn toàn (CRD), thiết kế thí nghiệm theo khối ngẫu nhiên đầy đủ (RCB) và thiết kế thí nghiệm hình vuông la tinh (LS hay LSD). Chúng tôi cũng chỉ giới thiệu phân tích số liệu của thí nghiệm có một nhân tố. Bản chất của ví dụ 14 là một thiết kế thí nghiệm kiểu CRD. Do vậy, trong phần này chúng tôi chỉ giới thiệu phân tích số liệu của thiết kế thí nghiệm RCB và LSD. Chúng tôi cũng chỉ giới thiệu kỹ thuật phân tích để kiểm tra giả thuyết H0 , những nội dung đi kèm của phân tích số liệu của các kiểu thiết kế thí nghiệm như phân tích thống kê mô tả và phân tích post hoc, hoàn toàn tương tự như nội dung trong phần 4, như đã trình bày ở trên. 5.1. Nguyên tắc của phân tích số liệu của thiết kế thí nghiệm RCB và LSD Nguyên tắc của hai kiểu thiết kế thí nghiệm này là có khống chế sự sai khác ban đầu. Mục đích của khống chế sự sai khác ban đầu là bóc tách ảnh hưởng của những nguồn biến động đã biết ra khỏi nguồn biến động ngẫu nhiên. Trong thiết kế thí nghiệm RCB đó chính là nguồn biến động tạo nên khối. Trong thiết kế thí nghiệm LSD đó là nguồn biến động tạo nên yếu tố hàng và cột. Khi bóc tách các nguồn biến động này ra khỏi biến động ngẫu nhiên thì chúng ta sẽ có kết luận chính xác về ảnh hưởng của yếu tố thí nghiệm. Nguyên tắc phân tích số liệu cũng như nhập số liệu của hai kiểu thiết kế thí nghiệm này là xem xét yếu tố bị khống chế như là yếu tố thí nghiệm. Mọi ứng xử đối với yếu tố bị khống chế hoàn toàn giống như yếu tố thí nghiệm. Chúng ta có thể biết ảnh hưởng của yếu tố bị khống chế đến các biến phụ thuộc, nhưng thông thường chúng 29 ta không quan tâm. Trong một số trường hợp chúng ta quan tâm, đó là khi muốn so sánh hiệu quả của các kiểu thiết kế với nhau. 5.2. Phân tích số liệu từ thí nghiệm kiểu RCB Ví dụ 15. Một nhóm nghiên cứu thí nghiệm ảnh hưởng của giống lúa đến năng suất. Thí nghiệm được thiết kế theo kiểu RCB. Kết quả năng suất của các giống lúa trong các khối khác nhau được thể hiện ở bảng 12. Hảy phân tích ảnh hưởng của giống lúa đến năng suất. Bảng 12. Ảnh hưởng của giống đến năng suất lúa trong một thí nghiệm được thiết kế theo kiểu RCB Khối Giống Năng suất Khối Giống Năng suất K1 V1 2,373 K2 V4 5,630 K1 V1 4,076 K2 V4 7,007 K1 V1 7,254 K2 V4 7,735 K1 V2 4,007 K2 V5 3,276 K1 V2 5,630 K2 V5 5,340 K1 V2 7,053 K2 V5 5,080 K1 V3 2,620 K2 V6 3,724 K1 V3 4,676 K2 V6 2,822 K1 V3 7,666 K2 V6 2,706 K1 V4 2,726 K3 V1 4,384 K1 V4 4,838 K3 V1 4,889 K1 V4 6,881 K3 V1 8,582 K1 V5 4,447 K3 V2 5,001 K1 V5 5,549 K3 V2 7,177 K1 V5 6,880 K3 V2 6,297 K1 V6 2,572 K3 V3 5,621 K1 V6 3,896 K3 V3 7,019 K1 V6 1,556 K3 V3 8,611 K2 V1 3,958 K3 V4 3,821 K2 V1 6,431 K3 V4 4,816 K2 V1 6,808 K3 V4 6,667 K2 V2 5,795 K3 V5 4,582 K2 V2 7,334 K3 V5 6,011 30 K2 V2 8,284 K3 V5 6,076 K2 V3 4,508 K3 V6 3,326 K2 V3 6,672 K3 V6 4,425 K2 V3 7,328 K3 V6 3,214 Trước khi phân tích, chúng ta phải xác định mô hình phân tích. Với kiểu thiết kế thí nghiệm RCB một nhân tố, thì mô hình phân tích có thể như sau: yij = µ + Bi + Dj + εij  yij = Biến phụ thuộc  µ = Trung bình quần thể  Bi= Ảnh hưởng của khối  Dj=Ảnh hưởng của biến độc lập (giống lúa)  εij = Ảnh hưởng của ngẫu nhiên Khi chúng ta đã rõ ràng về mô hình phân tích thì chúng ta có thể tiến hành phân tích theo các bước như sau :  Bước 1 : Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 18.). Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc. Chú ý biến phụ thuộc ở đây là biến định lượng.  Bước 3 : Khai báo biến phụ thuộc (dependent variable) và biến độc lập (fixed factors)(hình 18.). Chúng ta có thể thấy rằng cả yếu tố khối và yếu tố thí nghiệm được đưa vào mô hình. Nếu chúng ta muốn có kết quả phân tích thống kê mô tả thì ta thực hiện bước 5.  Bước 4 : Khai báo mô hình phân tích (hình 18). Căn cứ vào mô hình phân tích để khai báo mô hình. Nếu muốn xem ảnh hưởng đơn lẻ thì ta chọn từng biến một. Nếu muốn xem ảnh hưởng của tương tác của các biến thì ta chọn đồng thời các biến. Nếu chúng ta không thực hiện bước này thì máy tính sẽ thực hiện theo chế độ mặc định. Chế độ mặc định là mô hình phân tích đầy đủ, có nghĩa bao gồm cả ảnh hưởng đơn lẻ và ảnh hưởng tương tác.  Bước 5 : Vào trình ứng dụng thống kê mô tả trong option (hoàn toàn giống như ví dụ ở hình 16)  Bước 6 : Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì phải tiến hành phân tích post hoc. Nếu ta chấp nhận H0, thì không cần thực hiện post hoc (tương tự như ví dụ ở hình 17). Chúng ta cũng chỉ tiến hành post hoc khi có hơn 2 công thức thí nghiệm. 31 Hình 18. Tiến trình phân tích số liệu thí nghiệm thiết kế theo kiểu RCB Kết quả phân tích được thể hiện ở bảng 13. 32 Bảng 13. Kết quả phân tích phương sai ảnh hưởng của giống đến năng suất lúa trong thí nghiệm thiết kế theo kiểu RCB Kiểm tra sự khác nhau giữa các nhóm (Tests of Between-Subjects Effects) Biến phụ thuộc (Dependent Variable): Năng suất Source Sum of Squares df Mean Square F Sig. Corrected Model 66,32 7,00 9,47 4,33 0,00 Intercept 1511,11 1,00 1511,11 690,38 0,00 Khối 9,22 2,00 4,61 2,11 0,13 Giống 57,10 5,00 11,42 5,22 0,00 Error 100,68 46,00 2,19 Total 1678,12 54,00 Corrected Total 167,01 53,00 R2 = ,397; (R2 điều chỉnh= ,305) Cách giải thích kết quả hoàn toàn tương tự như ví dụ 14 (kết quả ở bảng 10). Qua bảng 13 ta thấy rằng yếu tố giống đã ảnh hưởng đến năng suất lúa (P <0,001). Như vậy, chúng ta bác bỏ giả thuyết H0 và chấp nhận giả thuyết HA. Điều này cũng có nghĩa là phải tiến hành phân tích post hoc để chỉ ra giống lúa nào sai khác với giống lúa nào. Kết quả phân tích post hoc được thể hiện ở bảng 14. Cách diễn giải kết quả hoàn toàn tương tự như kết quả phân tích post hoc ở ví dụ 14 (bảng 11). Qua kết quả phân tích post hoc ở bảng 14 ta thấy rằng giống lúa V6 có năng suất cao hơn tất cả các giống còn lại, trong khi đó không có sự khác biệt về năng suất lúa giữa các giống từ V1 đến V5. Như đề cập ở trên trong mô hình phân tích số liệu của thí nghiệm thiết kế theo kiểu RCB phải luôn luôn bao gồm cả yếu tố bị khống chế. Tuy nhiên, chúng ta không quan tâm đến ảnh hưởng của yếu tố bị khống chế (yếu tố khối) đến biến phụ thuộc. Một số phần mềm tin học thậm chí không đưa kết quả về mức ý nghĩa (giá trị P) của ảnh hưởng của yếu tố khối. Bảng 15 trình bày kết quả phân tích số liệu theo kiểu RCB bằng phần mềm GENSTAT. Trong phần 4, chúng tôi đã đề cập đến các bước phân tích phương sai. Một trong những bước trong phân tích phương sai là lựa chọn mức độ tin cậy α. Trong nông nghiệp nói riêng và khoa học nói chung thông thường người ta chấp nhận một mức α là 0,05. Điều này không có nghĩa là chúng ta luôn luôn sử dụng mức α = 0,05. Tùy theo mục đích và loại hình nghiên cứu (nghiên cứu trong phòng thí nghiệm, nghiên cứu đồng ruộng) mà chúng ta có thể lựa chọn các mức α khác nhau. Ví dụ thay vì α = 0,05 ta có thể chọn mức α = 0,01 hay 0,1. Điều này có thể thực hiện trong SPSS. Trong các trình ứng dụng phân tich phương sai luôn luôn có sự lựa chọn OPTION. Chúng ta có thể thay đổi mức độ tin cậy (significant level) α trong OPTION (hình 19). 33 Bảng 14. Kết quả phân tích post hoc về ảnh hưởng của giống đến năng suất lúa Multiple Comparisons Dependent Variable: giatri LSD -,86922 ,697423 ,219 -2,27306 ,53462 -,66289 ,697423 ,347 -2,06673 ,74095 -,15178 ,697423 ,829 -1,55562 1,25206 ,16822 ,697423 ,810 -1,23562 1,57206 2,27933* ,697423 ,002 ,87549 3,68317 ,86922 ,697423 ,219 -,53462 2,27306 ,20633 ,697423 ,769 -1,19751 1,61017 ,71744 ,697423 ,309 -,68639 2,12128 1,03744 ,697423 ,144 -,36639 2,44128 3,14856* ,697423 ,000 1,74472 4,55239 ,66289 ,697423 ,347 -,74095 2,06673 -,20633 ,697423 ,769 -1,61017 1,19751 ,51111 ,697423 ,467 -,89273 1,91495 ,83111 ,697423 ,239 -,57273 2,23495 2,94222* ,697423 ,000 1,53838 4,34606 ,15178 ,697423 ,829 -1,25206 1,55562 -,71744 ,697423 ,309 -2,12128 ,68639 -,51111 ,697423 ,467 -1,91495 ,89273 ,32000 ,697423 ,649 -1,08384 1,72384 2,43111* ,697423 ,001 1,02727 3,83495 -,16822 ,697423 ,810 -1,57206 1,23562 -1,03744 ,697423 ,144 -2,44128 ,36639 -,83111 ,697423 ,239 -2,23495 ,57273 -,32000 ,697423 ,649 -1,72384 1,08384 2,11111* ,697423 ,004 ,70727 3,51495 -2,27933* ,697423 ,002 -3,68317 -,87549 -3,14856* ,697423 ,000 -4,55239 -1,74472 -2,94222* ,697423 ,000 -4,34606 -1,53838 -2,43111* ,697423 ,001 -3,83495 -1,02727 -2,11111* ,697423 ,004 -3,51495 -,70727 (J) giong V2 V3 V4 V5 V6 V1 V3 V4 V5 V6 V1 V2 V4 V5 V6 V1 V2 V3 V5 V6 V1 V2 V3 V4 V6 V1 V2 V3 V4 V5 (I) giong V1 V2 V3 V4 V5 V6 Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 95% Confidence Interval Based on observed means. The mean difference is significant at the ,05 level.*. 34 Bảng 15. Kết quả phân tích phương sai ảnh hưởng của giống đến năng suất lúa trong thí nghiệm thiết kế theo kiểu RCB bằng phần mềm GENSTAT Variate: Năng suất Source of variation (N. biến động) d.f. s.s. m.s. v. r. F pr. Khối stratum 2 9,221 4,610 2,11 Khối.*Units* stratum giống 5 57,100 11,420 5,22 <,001 Residual (hiệu dư) 46 100,684 2,189 Total (tổng) 53 167,006 Hình 19. Thay đổi mức độ tin cậy α trong phân tích phương sai 5.3. Phân tích số liệu từ thí nghiệm kiểu LSD Ví dụ 16. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của các giống ngô đến năng suất. Thí nghiệm được thiết kế theo kiểu LSD và kết quả thí nghiệm được trình bày ở bảng 16. Hãy phân tích kết quả và chứng minh giả thuyết H0 về không có ảnh hưởng của giống ngô đến năng suất ngô. Trước khi phân tích chúng ta phải xác định mô hình phân tích. Với kiểu thiết kế thí nghiệm RCB một nhân tố, thì mô hình phân tích có thể như sau: 35 yijk = µ + Gi + Pj + Dk + εijk  yij = Biến phụ thuộc  µ = Trung bình quần thể  Gi= Ảnh hưởng của yếu tố hàng  Pj= Ảnh hưởng của yếu tố cột  Dk= Ảnh hưởng của yếu tố nghiên cứu  εijk = Ảnh hưởng của ngẫu nhiên Bảng 16. Năng suất (tấn/ha) của các giống ngô khác nhau, thiết kế thí nghiệm theo kiểu LSD Hàng Cột Giống Năng suất h1 c1 B 1,64 h1 c2 D 1,21 h1 c3 C 1,425 h1 c4 A 1,345 h2 c1 C 1,457 h2 c2 A 1,185 h2 c3 D 1,4 h2 c4 B 1,29 h3 c1 A 1,67 h3 c2 C 0,71 h3 c3 B 1,665 h3 c4 D 1,18 h4 c1 D 1,565 h4 c2 B 1,29 h4 c3 A 1,655 h4 c4 C 0,66 Khi chúng ta đã rõ ràng về mô hình phân tích thì chúng ta có thể tiến hành phân tích theo các bước như sau :  Bước 1 : Nạp số liệu vào SPSS  Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 19.). Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc. Chú ý biến phụ thuộc ở đây là biến định lượng.  Bước 3 : Khai báo biến phụ thuộc (dependent variable) và biến độc lập (fixed factors)(hình 20). Chúng ta có thể thấy rằng cả yếu tố hàng, yếu tố cột và yếu tố 36 thí nghiệm được đưa vào mô hình. Nếu muốn có kết quả phân tích thống kê mô tả thì ta thực hiện bước 5. Hình 20. Tiến trình phân tích số liệu thí nghiệm thiết kế theo kiểu LSD 37  Bước 4 : Khai báo mô hình phân tích (hình 18). Căn cứ vào mô hình phân tích để khai báo mô hình. Nếu muốn xem ảnh hưởng đơn lẻ thì ta chọn từng biến một. Nếu muốn xem ảnh hưởng của tương tác của các biến thì ta chọn đồng thời các biến. Nếu chúng ta không thực hiện bước này thì máy tính sẽ thực hiện theo chế độ mặc định. Chế độ mặc định là mô hình phân tích đầy đủ, có nghĩa bao gồm cả ảnh hưởng đơn lẻ và ảnh hưởng tương tác. Trong ví dụ này chúng ta chỉ chọn mô hình gồm ảnh hưởng của nhân tố chính : nhân tố hàng, nhân tố cột, và nhân tố giống. Trong ví dụ này chúng ta không thể đưa tương tác vào mô hình. Nếu đưa tương tác vào thì chúng ta sẽ có các mối tương tác sau đây : hàng x cột ; hàng x giống ; cột x giống ; và hàng x cột x giống. Lý do không thể đưa tương tác vào mô hình vì chúng ta không có đầy đủ độ tự do cho phân tích phương sai.  Bước 5: Vào trình ứng dụng thống kê mô tả trong option (hoàn toàn giống như ví dụ ở hình 16.)  Bước 6 : Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì chúng ta phải tiến hành phân tích post hoc. Nếu ta chấp nhận H0, thì chúng ta không cần thực hiện post hoc (tương tự như ví dụ ở hình 17). Chúng ta cũng chỉ tiến hành post hoc khi có hơn 2 công thức thí nghiệm. Kết quả phân tích được thể hiện ở bảng 17. Cách diễn giải kết quả hoàn toàn tương tự như ví dụ phân tích kết quả thiết kế thí nghiệm theo kiểu CRD và RCB. Qua bảng 17 ta thấy rằng các giống khác nhau tạo nên năng suất khác nhau (P <0,05). Bảng 17. Kết quả phân tích số liệu thí nghiệm thiết kế theo kiểu LSD Dependent Variable: Năng suất Source Sum of Squares df Mean Square F Sig. Corrected Model 1,285(a) 9 ,143 6,898 ,014 Intercept 28,481 1 28,481 1375,962 ,000 Hàng ,030 3 ,010 ,485 ,705 Cột ,818 3 ,273 13,178 ,005 Giống ,437 3 ,146 7,030 ,022 Error ,124 6 ,021 Total 29,890 16 Corrected Total 1,409 15 R2 = ,912 (R2 điều chỉnh = ,780) Kết quả ở bảng 17 không chỉ ra được giống nào có năng suất khác với giống nào do vậy cần phải phân tích post hoc để kiểm tra sự sai khác theo cặp. Bản chất của kiểm tra này là phép kiểm tra t. Qua kết quả ở bảng 18 ta thấy rằng giống C có năng suất thấp hơn tất cả các giống còn lại (P <0,05) và không có sự khác biệt về năng suất giữa giống ngô A, B và D (P >0,05). 38 Bảng 18. Kết quả phân tích post hoc về ảnh hưởng của các giống ngô đến năng suất ngô Đa so sánh (Multiple Comparisons) Biến phụ thuộc (Dependent Variable): Năng suất LSD (I) Giống (J) Giống Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval Lower Bound Upper Bound A B -0,01 0,10 0,94 -0,26 0,24 C 0,40 0,10 0,01 0,15 0,65 D 0,13 0,10 0,27 -0,12 0,37 B A 0,01 0,10 0,94 -0,24 0,26 C 0,41 0,10 0,01 0,16 0,66 D 0,13 0,10 0,24 -0,12 0,38 C A -0,40 0,10 0,01 -0,65 -0,15 B -0,41 0,10 0,01 -0,66 -0,16 D -0,28 0,10 0,04 -0,52 -0,03 D A -0,13 0,10 0,27 -0,37 0,12 B -0,13 0,10 0,24 -0,38 0,12 C 0,28 0,10 0,04 0,03 0,52 Như đề cập ở trên rong mô hình phân tích số liệu của thí nghiệm thiết kế theo kiểu LSD phải luôn luôn bao gồm cả yếu tố bị khống chế. Tuy nhiên, chúng ta không quan tâm đến ảnh hưởng của yếu tố bị khống chế (yếu tố hàng và yếu tố cột) đến biến phụ thuộc. Một số phần mềm tin học thậm chí không đưa kết quả về mức ý nghĩa (giá trị P) của ảnh hưởng của yếu tố hàng và yếu tố cột. Bảng 19 trình bày kết quả phân tích số liệu theo kiểu LSD bằng phần mềm GENSTAT. Bảng 19. Kết quả phân tích ANOVA về ảnh hưởng của các giống ngô đến năng suất ngô bằng phần mềm GENSTAT Variate: Năng suất Source of variation (N. Biến động) d.f. s .s. m.s. v.r. F pr. Hàng stratum 3 0,03014 0,01005 0,49 Cột stratum 3 0,81832 0,27277 13,18 Hàng.Cột stratum Giống 3 0,43654 0,14551 7,03 0,022 Residual (h iệu dư) 6 0,12419 0,02070 39 Total (tổng) 15 1.40920 Tóm lại, phân tích ANOVA cho các kiểu thiết kế thí nghiệm có sự khống chế ban đầu, về mặt cơ bản giống với phân tích ANOVA cho kiểu thiết kế thí nghiệm CRD. Điểm mẫu chốt là xem xét các yếu tố cần được khống chế (yếu tố khối trong RCB, yếu tố hàng và cột trong LSD) như là yếu tố thí nghiệm và chú ý khai báo mô hình phân tích một cách hợp lý. BÀI 6. ÁP DỤNG QUY TẮC NGẪU NHIÊN TRONG THIẾT KẾ THÍ NGHIỆM VỚI MỘT NHÂN TỐ Ba đặc tính quan trọng của bất kỳ một thí nghiệm nào là: (i) tính lặp lại (ii) tính ngẫu nhiên và (iii) khống chế sự sai khác ban đầu. Tính ngẫu nhiên ở đây có nghĩa là các đơn vị thí nghiệm nhận các nghiệm thức hoặc các nghiệm thức được phân chia vào các đơn vị thí nghiệm một cách ngẫu nhiên. Về cơ bản ta có thể nói rằng việc áp dụng tính ngẫu nhiên hoàn toàn giống nhau trong các kiểu thiết kế thí nghiệm khác nhau. Điểm mấu chốt là áp dụng tính ngẫu nhiên ở nơi nào và đối tượng nào. Trong thiết kế thí nghiệm CRD một nhân tố, tính ngẫu nhiên được áp dụng cùng lúc trên tất cả đơn vị thí nghiệm. Trong thiết kế thí nghiệm RCB, tính ngẫu nhiên được áp dụng trong mỗi khối. Ví dụ nếu chúng có 5 khối thì quá trình ngẫu nhiên hóa phải được thực hiện 5 lần. Mỗi lần cho mỗi khối. Trong thiết kế thí nghiệm kiểu LSD quá trình ngẫu nhiên hóa bắt đầu từ chọn hình vuông la tinh chuẩn, sau đó ngẫu nhiên hóa trật tự của hàng và cuối cùng là ngẫu nhiên hóa trật tự của cột. Chúng ta có thể thực hiện quá trình ngẫu nhiên bằng cách bốc thăm, bóc bài hay sử dụng các bảng số ngẫu nhiên. Trong nội dung của phần này chúng tôi giới thiệu kỹ thuật ngẫu nhiên hóa bằng cách dùng hàm RAND() trong EXCEL. 6.1. Ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu CRD và RCB Như đã nói ở trên, quá trình ngẫu nhiên hóa trong hai kiểu thiết kế thí nghiệm này hoàn toàn giống nhau. Trong thiết kế RCB, số lần thực hiện ngẫu nhiên hóa bằng số khối. Ở đây, chúng tôi chỉ lấy một ví dụ về quá trình ngẫu nhiên hóa trong thiết kế thí nghiệm CRD. Ví dụ 17. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của 3 chất kích thích sinh trưởng CT1, CT2 và CT3 đến sinh trưởng của một loại cây trồng A. Thí nghiệm được tiến hành trong nhà kính. Có 24 đơn vị thí nghiệm, mỗi đơn vị là một chậu. Thí nghiệm được thiết kế theo kiểu CRD. Hảy phân chia các đơn vị thí nghiệm vào các nghiệm thức hoặc ngược lại các nghiệm thức vào các đơn vị thí nghiệm.  Bước 1 (B1): Lập danh sách các chậu thí nghiệm và đánh số các chậu theo thứ tự từ 1-24  Bước 2 (B2): Gán cho mỗi chậu một số ngẫu nhiên bằng cách sử dụng hàm RAND(). Hàm RAND() cho phép tạo ra các số ngẫu nhiên có giá trị trong khoảng 40 [0-1]. Chúng ta có thể tạo ra các số ngẫu nhiên trong một khoảng giá trị nào đó bằng cách sử dụng hàm RANDBEETWEEN(giá trị 1; giá trị 2). Điều cần đặc biệt quan tâm là kết quả hàm RAND() luôn luôn thay đổi do vậy chúng ta phải cố định các giá trị ngẫu nhiên ngay sau khi đã tạo ra. Quá trình cố định này có thể thực hiện thông qua trình ứng dụng past special - past value (hình 20). Cần paste các giá trị ngẫu nhiên vừa tạo ra trên chính các giá trị vừa tạo ra. Mục đích là chuyển từ dạng formula thành dạng value. Bảng 20. Quá trình ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu CRD B1 B2 B3 B4 Chậu thí nghiệm Số ngẫu nhiên Chất sinh trưởng Chậu thí nghiệm Số ngẫu nhiên Chất sinh trưởng 1 0,485241372 CT1 1 0,033928302 CT2 2 0,83296448 CT2 2 0,035714957 CT1 3 0,755481259 CT3 3 0,049174649 CT3 4 0,792772895 CT1 4 0,061979632 CT3 5 0,033928302 CT2 5 0,105024436 CT3 6 0,421183444 CT3 6 0,15555833 CT1 7 0,653933273 CT1 7 0,421183444 CT3 8 0,490003494 CT2 8 0,448307137 CT3 9 0,535638176 CT3 9 0,485241372 CT1 10 0,713850843 CT1 10 0,490003494 CT2 11 0,940457894 CT2 11 0,535638176 CT3 12 0,448307137 CT3 12 0,643343235 CT3 13 0,035714957 CT1 13 0,653933273 CT1 14 0,967915049 CT2 14 0,656308708 CT1 15 0,105024436 CT3 15 0,663214746 CT2 16 0,656308708 CT1 16 0,713850843 CT1 17 0,819146507 CT2 17 0,755481259 CT3 18 0,049174649 CT3 18 0,792772895 CT1 19 0,15555833 CT1 19 0,819146507 CT2 20 0,949684416 CT2 20 0,83296448 CT2 21 0,061979632 CT3 21 0,913293136 CT1 22 0,913293136 CT1 22 0,940457894 CT2 23 0,663214746 CT2 23 0,949684416 CT2 24 0,643343235 CT3 24 0,967915049 CT2  Bước 3 (B3): Gán các công thức thí nghiệm vào các chậu theo thứ tự từ CT1 đến CT3 (Bảng 20)  Bước 4 (B4): Sắp xếp các cột “số ngẫu nhiên” và “chất sinh trưởng” theo thứ tự tăng dần hoặc giảm dần của “số ngẫu nhiên”. 41 Hình 20. Cố định các giá trị ngẫu nhiên vừa tạo ra Kết quả của quá trình ngẫu nhiên hóa ta có chậu 1 nhận CT2, chậu 2 nhận CT1, chậu 3 nhận CT3, chậu 4 nhận CT3.....chậu 24 nhận CT2. 6.2. Ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu LSD Ví dụ 18. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của các giống ngô đến năng suất ngô. Thí nghiệm được thiết kế theo kiểu LSD với 3 giống ngô A, B, D và giống đối chứng C. Hảy thiết kế thí nghiệm. Quá trình thiết kế thí nghiệm hay áp dụng quy tắc ngẫu nhiên của thí nghiệm thiết kế theo kiểu LSD được thực hiện theo các bước sau:  Bước 1: Chọn ngẫu nhiên một hình vuông la tinh chuẩn. Trong ví dụ này ta chọn hình vuông la tin chuẩn 4x4. Thông thường các sách thiết kế thí nghiệm trong nông nghiệp có phụ lục các hình vuông la tinh chuẩn theo các kích thước khác nhau. Lưu ý: Chúng ta có thể tạo ra hình vuông la tinh chuẩn A B C D B C D A C D A B D A B C Hình 21. Hình vuông la tinh chuẩn 4x4  Bước 2: Ngẫu nhiên hóa trật tự của hàng ngoại trừ hàng thứ nhất. Quá trình ngẫu nhiên hóa hoàn toàn có thể sử dụng hàm RAND() như trình bày ở trên. Kết quả được thể hiện ở hình 22. 42 A B C D C D A B D A B C B C D A Hình 22. Hình vuông la tinh chuẩn 4x4 sau khi đã được ngẫu nhiên hóa trật tự của hàng  Bước 3: Ngẫu nhiên hóa trật tự của cột. Quá trình ngẫu nhiên hóa hoàn toàn có thể sử dụng hàm RAND() như trình bày ở trên. Kết quả được thể hiện ở hình 23. A D C B C B A D D C B A B A D C Hình 23. Hình vuông la tinh chuẩn 4x4 sau khi đã được ngẫu nhiên hóa trật tự của hàng và trật tự của cột Sau khi hoàn thành 3 bước ngẫu nhiên hóa thì đồng thời chúng ta cũng hoàn thành thiết kế thí nghiệm. BÀI 7. PHÂN TÍCH HỒI QUY Phân tích phương sai giúp xác định ảnh hưởng hay không ảnh hưởng của biến độc lập lên biến phụ thuộc, chứ không thể lượng hóa được ảnh hưởng của biến độc lập lên biến phụ thuộc. Để lượng hóa được ảnh hưởng của biến độc lập lên biến phụ thuộc, chúng ta phải giải quyết bằng phân tích hồi quy. Phân tích hồi quy là một lĩnh vực rất rộng có thể khái quát thành một số nội dung chính như: Hồi quy đơn biến, hồi quy đa biến, hồi quy tuyến tính và hồi quy phi tuyến tính. Trong phạm vi của chương trình này chúng tôi chỉ giới thiệu cách phân tích hồi quy đơn biến. Ví dụ 19. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của hàm lượng lân đến năng suất lúa. Nhóm nghiên cứu đã tiến hành nghiên cứu và thu thập được số liệu ở bảng 21. Có ba vấn đề chính trong phân tích hồi quy  Kiểm tra mức độ tin cậy của hệ số hồi quy  Kiểm tra mức độ tin cậy của các hệ số hồi quy  Xác định mức độ giải thích của hệ số hồi quy 43 Bảng 21. Ảnh hưởng của hàm lượng lân đến năng suất lúa Hàm lượng lân Năng suất (100 kg/ha) 0,058 63,700 0,057 62,300 0,035 56,200 0,054 58,600 0,046 48,100 0,048 45,300 0,051 53,800 0,045 45,300 0,050 52,400 0,056 60,900 0,056 60,000 0,055 60,000 0,049 46,700 0,050 51,600 0,052 53,800 0,045 43,900 0,057 55,000 0,056 62,300 0,058 56,000 0,058 66,600 0,047 45,300 Quá trình phân tích hồi quy có thể diễn ra theo các bước sau đây:  Bước 1: Nạp số liệu từ EXCEL vào SPSS  Bước 2: Lựa chọn hồi quy đơn biến (hình 24)  Bước 3: Xác định mô hình và khai báo biến độc lập và biến phụ thuộc (hình 24). Đây là hồi quy đơn biến tuyến tính cho nên có dạng như sau: y = bx + a. Trong đó y là biến phụ thuộc (năng suất lúa), x là biên độc lập (hàm lượng lân), b là hệ số gốc hay còn gọi là hệ số hồi quy, a là hằng số. 44 Hình 24. Các bước tiến hành phân tích hồi quy đơn biến. Kết quả thu được như sau: Bảng 22. Mức độ ý nghĩa của mô hình Qua kết quả ở bảng 22 ta có thể kết luận rằng mô hình có thể giải thích được sự biến động của năng suất lúa (P <0,01). Giả thuyết H0 mà kết quả ở bảng 21 kiểm tra là: các tham số a và b =0, có nghĩa là mô hình không giải thích được sự biến động của năng suất. Giả thuyết HA là ít nhất một tham số khác không có nghĩa là hoặc a khác 0 hoặc b khác 0. Cách giải thích các thành phần trên bảng phân tích phương sai ở bảng 22 hoàn toàn tương tự như phần phân tích ANOVA đã nêu trong mục V. ANOVAb 431,101 1 431,101 15,553 ,001a 526,651 19 27,718 957,751 20 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. Predictors: (Constant), lana. Dependent Variable: nangsuatb. 45  Model = Mô hình giải thích sự biến động của năng suất lúa gồm có hai thành phần (i) thành phần do hồi quy giải thích (regression) và thành phần do ngẫu nhiên giải thích (error).  Sum of square = Tổng các bình phưong  df = Độ tự do  Mean Square = ước tính của phương sai  F = Giá trị F tính toán  Sig. = Mức ý nghĩa Sau khi kiểm tra mức ý nghĩa của mô hình ta phải kiểm tra mức độ tin cậy của các hệ số hồi quy (bảng 22). Bảng 23. Giá trị các tham số và mức ý nghĩa của các tham số trong phương trình hồi quy Coefficients(a) Model Unstandardized Coefficients t Sig. B Std. Error 1 (Constant) 14,102766 10,34728459 1,362944 0,188836 Hàm lượng lân 786,37295 199,3992758 3,94371 0,000871 Dependent Variable: Năng suất Qua bảng 23 ta có thể xác định được phương trình hồi quy như sau: Năng suất lúa = 14,103 + 786,37 x hàm lượng lân. Giả thuyết H0 của kiểm tra trong bảng 23 là mỗi tham số =0 và giả thuyết HA là mỗi tham số khác 0. Khi giá trị của tham số khác 0 thì thực sự nó có ảnh hưởng đến biến phụ thuộc. Các tham số trong bảng 23 có thể được giải thích như sau:  B = Các hệ số cần ước tính. Trong hồi quy đơn biến như ví dụ này thì có 2 hệ số cần ước tính. Constant = Giá trị của hàng số = a = 14,103; Hàm lượng lân = b=786,37  Std. Error = Sai số của số trung bình của ước tính  t= Giá trị t tính toán. Giá trị này chính là B/Std.Error  Sig. = Mức ý nghĩa. Qua bảng trên ta thấy rằng hệ số b = 786,37 thực sự khác 0 ( P <0,05). 46 Bước tiếp theo là kiểm tra mức độ giải thích của mô hình. Nói một cách cụ thể là mô hình y = bx + a giải thích được bao nhiêu % sự biến động của biến y mà cụ thể là năng suất lúa trong ví dụ này. Kết quả thể hiện ở bảng 24 Bảng 24. Kiểm tra mức độ giải thích của mô hình Model R R Square Adjusted R Square Std. Error of the Estimate 1 ,671(a) ,450 ,421 5,264831 a Predictors: (Constant), lan  R = Hệ số tương quan đơn  R square = Hệ số tương quan bình phương  Adjusted R square: Hệ số tương quan bình phương hiệu chỉnh Như vậy, phương trình hồi quy có thể giải thích được 45% sự biến động năng suất.

Các file đính kèm theo tài liệu này:

NGHIEN CUU CHUYEN SAU.pdf