TRƯỜNG ĐẠI HỌC NÔNG LÂM HUẾ
Phương pháp nghiên cứu nâng cao.
Mở đầu
Bài 1: Nhập số liệu
Bài 2. Kiểm tra số liệu và định hướng phân tích
Bài 3. Phân tích thống kê mô tả
Bài 4. Phân tích phương sai
Bài 5. Phân tích phương sai cho các kiểu thiết kế thí nghiệm khác nhau
Bài 6. Áp dụng quy tắc ngẫu nhiên trong thiết kế thí nghiệm với một nhân tố
Bài 7. Phân tích hồi quy
48 trang |
Chia sẻ: tlsuongmuoi | Lượt xem: 10211 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Bài giảng Ứng dụng tin học trong thiết kế thí nghiệm và xử lý số liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
số liệu
trong các kiểu thiết kế thí nghiệm khác như LS, SPLIT-PLOT và STRIP-PLOT. Trong
phạm vi của chương trình đào tạo bậc đại học chúng tôi chỉ giới thiệu cách nhập số liệu
của hai kiểu thiết kế thí nghiệm RCB và LS.
Nguyên tắc cơ bản nhập số liệu trong các kiểu thiết kế thí nghiệm có sự khống
chế sự sai khác ban đầu (RCB, LS, SPLIT-PLOT và STRIP-PLOT) là xem xét yếu tố
khống chế như là một yếu tố thí nghiệm. Có nghĩa là mỗi một yếu tố khống chế sự sai
khác cần một cột trong worksheet của excel.
Chúng ta có thể nhập số liệu cho ví dụ 4 ở hình 4. Hình 4 trình bày cách nhập số
liệu của 14 đơn vị thí nghiệm đầu.
9
Hình 4: Nhập số liệu trong trường hợp số liệu phân tổ bởi hai nhân tố theo kiểu
thiết kế RCB
Ví dụ 5. Một nhóm nghiên cứu đã tiến hành nghiên cứu năng suất (tấn/ha) của 3
giống ngô la i A, B, D và giống đối chứng C, trong một thiết kế thí nghiệm kiểu LS,
kết quả thu được ở bảng 5. Hãy nhập số liệu để so sánh năng suất của các giống ngô.
Bảng 5. Năng suất (tấn/ha) của các giống ngô A, B, D và C trong thí nghiệm
thiết kế theo kiểu LS
Năng suất hạt (tấn/ha)
Số hàng
Cột 1 Cột 2 Cột 3 Cột 4
10
1 1,640(B) 1,210(D) 1,425(C) 1,345(A)
2 1,457(C) 1,185(A) 1,400(D) 1,290(B)
3 1,670(A) 0,710(C) 1,665(B) 1,180(D)
4 1,565(D) 1,290(B) 1,655(A) 0,660(C)
Chúng ta có thể nhập như sau (hình 5).
Hình 5: Nhập số liệu trong trường hợp thiết kế thí nghiệm kiểu LS
Tóm lại, nguyên tắc cơ bản của nhập số liệu để xử lý số liệu bằng phần mềm
SPSS cũng như các phần mềm khác như GENSTAT và MINITAB là “mỗi đơn vị thí
nghiệm nằm trong một hàng, mỗi biến nằm trong một cột”.
BÀI 2. KIỂM TRA SỐ LIỆU VÀ ĐỊNH HƯỚNG PHÂN TÍCH
Phân tích số liệu là việc làm rất đơn giản và nhanh chóng, do vậy chúng ta
không cần thiết vội vàng phân tích số liệu. Với các yêu cầu của một thí nghiệm thông
11
thường trong nông nghiệp, phân tích số liệu có thể hoàn thành trong vài phút. Tuy
nhiên, nếu không kiểm tra số liệu một cách cẩn thận thì việc xử lý số liệu có thể phải
làm đi làm lại nhiều lần do sau khi hoàn thành xử lý số liệu, nhà nghiên cứu có thể phát
hiện một số số liệu chưa được nhập chính xác. Tập hợp số liệu càng lớn bao nhiêu thì
việc kiểm tra số liệu càng quan trọng bấy nhiêu.
Mục đích cơ bản của việc kiểm tra số liệu là phát hiện ra các sai sót trong nhập
số liệu và phát hiện các trường hợp ngoại lệ (outliner). Ngoài ra việc kiểm tra số liệu
còn có thể giúp người nghiên cứu định hình được khuynh hướng của mối quan hệ giữa
các biến nghiên cứu, từ đó lựa chọn phương án phân tích số liệu thích hợp.
Việc kiểm tra số liệu có thể được thực hiện bằng nhiều cách khác nhau. Ví dụ sử
dụng trình ứng dụng f ilter trong EXCEL, Box plot hoặc Scatter plot trong SPSS.
2.1. Kiểm tra số liệu bằng trình ứng dụng filter trong EXCEL
Kiểm tra số liệu bằng cách sử dụng trình ứng dụng filter (lọc) có thể được thực
hiện một cách dễ dàng và nhanh chóng, đặc biệt khi chúng ta có tập hợp số liệu nhỏ.
Ví dụ 6. Hãy kiểm tra các số liệu đã nhập ở bảng 2 (ví dụ 2). Cần chú ý rằng
đây là một tập hợp số liệu rất đơn giản chúng ta hoàn toàn có thể kiểm tra bằng mắt
thường. Tuy nhiên từ các ví dụ đơn giản chúng ta cần khái quát hóa thành phương pháp
kiểm tra số liệu cho mọi tập hợp số liệu khác nhau.
Chúng ta có thể kiểm tra như sau:
Bước 1: Khởi động chức năng filter. Việc khởi động này có thể thực hiện
như sau: Data-Filter-AutoFilter
Bước 2: Filter số liệu năng suất để phát hiện ra các trường hợp nhập sai
hoặc các trường hợp ngoại lệ
Bước 3: Chọn số liệu được cho là sai hoặc ngoại lệ để phát hiện bản ghi
(đơn vị thí nghiệm) nào chứa số liệu đó
Từ hình 6 không có sai sót nào được phát hiện trong nhập số liệu. Giả sử chúng
ta đã nhập sai số liệu của đơn vị thí nghiệm thứ nhất, thay vì nhập 3.853 chúng ta đã
nhập thành 38.533. Từ hình 7, chúng ta có thể đặt nghi ngờ về độ chính xác của bản
ghi có năng suất 38.533.
12
Hình 6. Kiểm tra số liệu bằng chức năng Filter
Như vậy nếu nhìn vào hình 7 thì chúng ta có thể phát hiện bản ghi (đơn vị thí
nghiệm) có năng suất 38.533. Chúng ta có thể di chuyển thẳng đến đơn vị thí nghiệm
có chứa số liệu 38.533. Khi đó các đơn vị thí nghiệm khác sẽ bị ẩn (8). Màu sắc của
filter bị thay đổi. Sự thay đổi màu sắc này báo hiệu tập hợp số liệu nghiên cứu đang bị
filter (lọc). Nếu chúng ta muốn thao tác với toàn bộ số liệu thì chú ý phải bỏ chức năng
filter. Điều này có thể thực hiện được bằng cách chọn ALL trong filter. Chức năng
filter còn có thể giúp ta lựa chọn được các số liệu theo một số tiêu chí nào đó do chúng
ta định ra.
13
Hình 7. Kiểm tra số liệu bằng chức năng Filter
Hình 8. Kiểm tra số liệu bằng chức năng Filter
14
2.2. Kiểm tra số liệu bằng trình ứng dụng Box-plot hoặc Scatter Plot trong SPSS
3.2.1. Nạp số liệu từ EXCEL vào SPSS
Sau khi đã nhập xong số liệu thì chúng ta có thể nạp số liệu vào SPSS để kiểm
tra số liệu cũng như phân tích và xử lý số liệu. Việc nạp số liệu vào SPSS hoàn toàn
đơn giản như việc mở một file số liệu. Chúng ta có thể tiến hành theo các bước sau
đây:
Bước 1: Khởi động SPSS
Bước 2: Chọn file – Open Data (hình 9)
Hình 9. Nạp số liệu vào SPSS
Bước 3: Tìm đến file excel chứa số liệu đã nhập và mở file (open). Chú
ý: chỉ rõ loại file mà chúng ta muốn mở là file có đuôi XLS (file EXCEL). Khi muốn
nạp số liệu từ file EXCEL vào SPSS, chúng ta phải tắt file EXCEL chứa số liệu.
Ví dụ 9. Hãy nạp (input) số liệu ở ví dụ 2 từ EXCEL vào SPSS
Sau khi nạp số liệu chúng ta sẽ có kết quả như ở hình 10
15
Hình 10. Nạp số liệu vào SPSS và kết quả nạp số liệu
2.2.2. Kiểm tra số liệu bằng trình ứng dụng Box -plot hoặc Scatter- Plot trong SPSS
Thực chất của kiểm tra số liệu bằng trình ứng dụng Box-plot hoặc Scatter- Plot
trong SPSS là vẽ đồ thị Box-Plot hoặc vẽ đồ thị Scatter - Plot. Như vậy, nếu chúng ta
có thể kiểm tra số liệu bằng cách sử dụng hai loại đồ thị trên thì chúng ta cũng có thể
vẽ các đồ thị khác theo ý muốn. Thực chất là chúng ta lợi dụng chức năng vẽ đồ thị để
kiểm tra số liệu. Chúng tôi hy vọng rằng qua phần này người đọc có thể vẽ được các
loại đồ thị bằng phần mềm SPSS và kiểm tra số liệu.
Ví dụ 10. Hãy kiểm tra số liệu bằng đồ thị Box-plot trong SPSS bằng cách dùng
tập hợp số liệu ở ví dụ 2 (bảng 2.).
Chúng ta có thể làm theo các bước sau:
Bước 1: Nạp số liệu vào SPSS
Bước 2: Chọn Graph-Boxplot-Sinple (có thể chọn clustered trong trường
hợp số liệu phân nhóm)
Bước 3: Chọn biến ở trục tung và biến ở trục hoành
Bước 4: Xem xét các trường hợp ngoại lệ từ đồ thị Box-plot
16
Hình 11. Đồ thị Box-Plot mô tả mối quan hệ giữa công thức phân bón và năng
suất của lúa
Qua đồ thị trên ta không thấy những giá trị ngoại lệ. Có thể hiểu một cách đơn
giản là các giá trị nằm ngoài các đuôi của đồ thị Box-Plot thì nên được xem xét về tính
chính xác cũng như có thể được xem xét như các trường hợp ngoại lệ.
Ví dụ 11. Một nhóm nghiên cứu điều tra ảnh hưởng của tuổi của chủ hộ đến
việc chấp nhận (Y) hay không chấp nhận (N) trồng giống ngô địa phương. Kết quả
được thể hiện ở bảng 6. Hãy kiểm tra kết quả nhập số liệu.
Bảng 6. Số liệu về ảnh hưởng của tuổi chủ hộ đến chấp nhận giống ngô địa
phương
Loại hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ Tuổi chủ hộ
N 48 24 36 12 10
N 17 36 48 36 6
Y 46 60 5 36 14
N 24 36 24 32 92
N 17 48 36 12 12
N 17 14 24 24 2
Y 24 36 60 5 8
Y 48 36 7,5 24 8
Y 168 5 4 24 5
N0 N1 N2 N3 N4
Công thức phân bón
2500
3000
3500
4000
4500
5000
5500
6000
6500
Năng suất
17
Y 40 30 60 36 36
N 6 5 48 24 8
Y 16 36 48 34 144
N 12 8 8 22 30
N 28 12 5 19 10
Y 46 12 72 36 7
Y 36 26 72 12 24
N 17 6 10 24 14
N 36 24 12 18 1
N 24 15 12 18 20
N 24 24 36 25 12
N 12 6 48 8 2
N 36 12 24 10 12
N 29 14 18 42 48
N 36 14 5 4 48
N 48 36 36 6 48
N 36 24 36 9 2
Y 48 24 36 60 30
N 36 24 36 46 12
N 12 12 60 24 12
N 84 6 8 32 15
N 9 36 7 92 10
Y 18 36 26 7 7
N 36 48 36 7 72
Y 60 24 22 7 30
N 15 36 18 8 60
Vẽ đồ thị kiểu Box-Plot, kết quả được trình bày ở hình 12.
Qua hình 12. có thể đặt nghi ngờ vào một số bản ghi hay đơn vị thí nghiệm thứ 9, 212,
58, 79, 76, 204, 64, 191 và 30 trong file số liệu. Các số liệu đó có thể do sai sót khi
nhập số liệu, cũng có thể là những trường hợp ngoại lệ, do vậy chúng ta cần kiểm tra
lại những số liệu này. Cần đặc biệt chú ý là không được loại bỏ các số liệu này khi
không có lý do chính đáng. Các trường hợp ngoại lệ thông thường làm cơ sở cho việc
đề xuất ý tưởng nghiên cứu mới.
Chúng ta có thể vừa kiểm tra số liệu vừa xem xét khuynh hướng của
phân bố số liệu hay xem xét mối quan hệ giữa các biến. Điều này có thể được thực hiện
thông qua đồ thị kiểu Scatter-Plot. Tiến trình vẽ đồ thị kiểu Scatter-Plot tuân theo các
bước như sau : Graphs - Scatter- Simple. Sau đó chọn biến x và biến y. Chỉ chọn
Simple khi ta muốn vẽ đồ thị đơn chỉ gồm một biến x và một biến y (Hình 13).
18
Hình 12. Đồ thị Box-Plot để kiểm tra số liệu
Hình 13. Các bước vẽ đồ thị Scatter-Plot
Hình 14 trình bày một ví dụ về đồ thị Scatter-Plot từ một tập hợp số liệu với 573
đơn vị thí nghiệm. Do tập hợp số liệu khá lớn cho nên chúng tôi không trình bày tập
hợp số liệu.
N Y
loaiho
0
50
100
150
200
tu
oi 58
64
30
204
191
79 76
9
212
19
Qua hình 14 ta có thể vừa kiểm tra số liệu vừa suy đoán mối quan hệ giữa các
biến. Chúng ta có thể hoàn toàn nghi ngờ bản ghi/đơn vị thí nghiệm ở hàng 262 và 481
của file nhập số liệu là những trường hợp ngoại lệ, hoặc có thể chúng đã được nhập sai.
0 20 40 60 80 100 120 140
x
50
100
150
200
250
y1
262
481
Hình 14. Đồ thị Scatter-Plot biểu thị mối quan hệ giữa biến độc lập x và biến
phụ thuộc y
Mặt khác qua hình 14 ta thấy rằng khi x nhỏ thì khi x tăng thì y tăng, nhưng khi
tiếp tục tăng x thì y sẽ không tăng nữa. Như vậy khi xem xét mối quan hệ giữa y và x
chúng ta không thể dùng một hàm tuyến tính đơn thuần được.
Tóm lại, có nhiều cách khác nhau để kiểm tra số liệu đồng thời định hình mối
quan hệ giữa các biến nghiên cứu. Người làm nghiên cứu cần chú ý đến kiểm tra số
liệu thật kỹ trước khi phân tích số liệu.
BÀI 3. PHÂN TÍCH THỐNG KÊ M Ô TẢ
Trong các chương trước chúng ta đã biết một trong những nội dung quan trọng
nhất của thống kê mô tả là tính toán các tham số đặc trưng cho mức độ tập trung như
trung bình, trung vị, và yếu số và các tham số đặc trưng cho mức độ phân tán như
phương sai, độ lệch chuẩn, sai số chuẩn của số trung bình (sai số của số trung bình).
Trong nội dung của chương này chúng tôi sẽ đề cập đến cách phân tích các tham số đó
bằng trình ứng dụng descriptive statistics. Trong SPSS có rất nhiều trình ứng dụng có
20
thể tính toán được các tham số thống kê mô tả hay nói cách khác trình ứng dụng
descriptive statistics có thể được thực hiện từ các trình ứng dụng khác, ví dụ từ trình
ứng dụng General Linear Model hay Compare means.
3.1. Phân tích thống kê mô tả trong trường hợp tập hợp số liệu không phân nhóm
Ví dụ 12. Hảy tính toán các tham số thống kê mô tả của năng suất lúa trong ví
dụ 2.
Chúng ta có thể thực hiện theo các bước sau :
Bước 1: Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng descriptive statistics (hình 15)
Bước 3 : Lựa chọn biến cần được thực hiện thống kê mô tả (hình 15)
Bước 4: Lựa chọn các tham số thống kê cần tính toán (hình 15)
Hình 15. Phân tích thống kê mô tả khi số liệu không phân nhóm
Trình ứng dụng descriptive statistics này có thể tính toán được một số tham số
thống kê như trung bình (mean), sum (tổng), độ lệch chuẩn (Std. deviation), phương sai
(variance), sai số của số trung bình (S.E. mean), khoảng biến động (range), giá trị nhỏ
nhất (minimum) và giá trị lớn nhất (maximum). Một số tham số thống kê khác thông
thể tính tự động từ trình ứng dụng này ví dụ trung vị.
21
Bảng 7. Kết quả phân tích thống kê mô tả số liệu ví dụ 2
n Range Min Max Sum Mean
Std.
Error
Std.
Deviation Variance
20 35927 2606 38533 130069 6503,45 1701,501 7609,345 57902132
3.2. Phân tích thống kê mô tả trong trường hợp tập hợp số liệu phân nhóm
Có rất nhiều trình ứng dụng khác nhau có thể phân tích thống kê mô tả trong
trường hợp số liệu phân nhóm ví dụ chúng ta có thể sử dụng Compare means hay
General Linnear Model. Nói cách khác phân tích thống kê mô tả có thể được thực hiện
với các phân tích khác như phân tích hồi quy và phân tích phương sai.
Vídụ 13. Hãy tính toán các tham số thống kê mô tả của năng suất lúa theo các
công thức phân bón khác nhau trong ví dụ 2.
Ta có thể thực hiện theo các bước sau :
Bước 1 : Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng phân tích thống kê mô tả từ compare means
( so sánh các trung bình), hình 15.
Hình 15. Phân tích thống kê mô tả từ compare means
Bước 3: Lựa chọn biến cần tính toán thống kê mô tả và biến phân nhóm
(Hình 15).
Bước 4 : Lựa chọn các chỉ số tham số thống kê cần tính toán
22
Trình ứng dụng này có thể tính toán được rất nhiều tham số thống kê mô tả. Có
thể nói rằng trình ứng dụng này có thể tính toán được hầu như toàn bộ các tham số
thống kê mô tả.
Kết quả phân tích thống kê mô tả ví dụ 13 được thể hiện ở bảng 8. Những kết
quả này hoàn toàn có thể được copy từ kết quả đầu ra của SPSS sang các phần mềm
khác như Microsoft Word, Excel hay Powerpoint. Cách thức copy hay cắt án hoàn toàn
tương tự như trong Microsoft Word, Excel hay Powerpoint. Trong một số trường hợp,
ví dụ khi ta muốn làm tròn số ta có thể copy vào Excel trước để làm tròn số, hay để
tính toán thêm một tham số thống kê, sau đó copy qua các phần mềm văn bản khác để
làm báo cáo.
Bảng 8. Kết quả phân tích mô tả năng suất lúa ở các mức phân bón khác nhau
CT
phân
bón Mean N
Std.
Deviation Median
Std.
Error
of
Mean Sum Min Max Range Variance
Geo.
Mean
N0 3,1 4,0 0,5 3,0 0,3 12,5 2,6 3,9 1,2 0,3 3,1
N1 4,7 4,0 0,2 4,7 0,1 18,9 4,6 4,9 0,4 0,0 4,7
N2 4,5 4,0 0,4 4,5 0,2 17,8 3,9 4,9 1,0 0,2 4,4
N3 5,7 4,0 0,3 5,8 0,2 22,9 5,3 6,0 0,8 0,1 5,7
N4 5,8 4,0 0,2 5,9 0,1 23,3 5,5 6,0 0,5 0,0 5,8
Total 4,8 20,0 1,1 4,8 0,2 95,4 2,6 6,0 3,4 1,1 4,6
Trong đó Mean = Trung bình, N=số quan sát, Std.Deviation = Độ lệch chuẩn,
Median = Trung vị, Std. Error of Mean = Sai số của số trung bình, Sum = Tổng, Min =
Giá trị bé nhất, Max = Giá trị lớn nhất, Range = Khoảng biến động, Variance = Phương
sai và Geometric Mean = Trung bình nhân.
Ngoài ra, cho ví dụ 13 ta có thể phân tích thống kê mô tả từ trình ứng dụng
General Linnear Model. Các bước như sau :
Bước 1 : Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng General Linear Model (hình 16)
Bước 3 : Khai báo biến phụ thuộc (dependent variables) và biến độc lập
(fixed factors)(hình 16)
Bước 4 : Vào trình ứng dụng thống kê mô tả trong option (hình 16)
Trình ứng dụng thống kê mô tả trong option không cho phép chúng ta lựa chọn
các tham số thống kê mô tả cần tính toán mà luôn luôn cho kết quả mặc định. Kết quả
đó bao gồm : Mean = Trung bình, Std. deviation = Độ lệch chuẩn, và N = Số lần lặp lại
(Số đơn vị thí nghiệm nhận cùng một nghiệm thức). Một lưu ý là có rất ít các phần
mềm cho phép mặc định tính CV% (hệ số biến dị). Do vậy để có thể tính được CV%
23
chúng ta cần phải tính tiếp sau khi đã có kết quả độ lệch chuẩn và trung bình. Kết quả
phân tích thống kê mô tả của ví dụ 3 ứng dụng theo General Linear model được thể
hiện ở bảng 9.
Hình 16. Phân tích thống kê mô tả từ General Linear Model
BÀI 4. PHÂN TÍCH PHƯƠNG SAI
Phân tích phương sai là một trong những cách để kiểm tra giả thuyết, ngoài các
cách khác như kiểm tra t, kiểm tra khi bình phương. Phân tích phương sai dựa trên hàm
phân bố F. Bản chất của phân tích phương sai dựa trên sự sai khác giữa phương sai do
yếu tố thí nghiệm gây nên và phưong sai do yếu tố ngẫu nhiên gây nên. Điều kiện để
phân tích phương sai là số liệu trong mỗi công thức phân bố chuẩn và số liệu của các
24
công thức là đồng nhất về phương sai. Trong phạm vi bậc học ở đại học chúng tôi
không giới thiệu kỹ thuật phân tích điều kiện để có thể phân tích phương sai.
Kiểm tra giả thuyết nói chung và phân tích phương sai nói riêng tuân theo một
số bước chính sau :
Nêu giả thuyết cần kiểm tra
Lựa chọn mức độ tin cậy α
Lựa chọn mẫu ngẫu nhiên từ quần thể và tính toán giá trị thống kê kiểm
tra
Tra bảng phân bố xác suất
Quyết định hay chấp nhận giả thuyết kiểm tra
Bảng 9. Kết quả phân tích mô tả năng suất lúa ở các mức phân bón khác nhau
theo ví dụ 13.
CT phân bón Mean Std. Deviation N
N0 3,1 0,5 4
N1 4,7 0,2 4
N2 4,5 0,4 4
N3 5,7 0,3 4
N4 5,8 0,2 4
Total (tổng) 4,8 1,1 20
Tất cả các kiểm tra giả thuyết đều có thể được thực hiện bằng SPSS. Có một số
trình ứng dụng có thể thực hiện phân tích phương sai. Ở đây chúng tôi giới thiệu phân
tích phương sai từ trình ứng dụng General Linear Model.
Ví dụ 14. Hãy phân tích ảnh hưởng của các công thức phân bón đến năng suất
lúa trong ví dụ 2 (bảng 2). Quá trình phân tích phương sai có thể tiến hành theo các
bước sau đây :
Bước 1 : Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 16.).
Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc.
Chú ý: biến phụ thuộc ở đây là biến định lượng.
Bước 3 : Khai báo biến phụ thuộc (dependent variables) và biến độc lập
(fixed factors)(hình 16.). Nếu chúng ta muốn có kết quả phân tích thống kê mô tả thì ta
thực hiện bước 4.
Bước 4 : Vào trình ứng dụng thống kê mô tả trong option (hình 16.)
25
Bước 5: Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì có thể tiến
hành phân tích post hoc (chú ý: post hoc chỉ là một cách để thực hiện đa so sánh, còn
có các hình thức khác như so sánh có kế hoạch trực giao). Nếu chấp nhận H0, thì không
cần thực hiện post hoc (hình 17). Chúng ta cũng chỉ tiến hành phân tích post hoc khi
chúng ta có hơn 2 công thức thí nghiệm. Để phân tích post hoc chúng ta cần thực hiện
qua 2 bước tiếp theo các bước nêu trên.
Bước 5.1. Lựa chọn biến độc lập cần phân tích post hoc
Bước 5.2. Lựa chọn loại kiểm tra post hoc thích hợp
Hình 17. Phân tích phương sai và phân tích post hoc từ General Linear Model
Trong phân tích post hoc chúng ta có nhiều lựa chọn khác nhau như LSD (Sai
khác ít nhất có ý nghĩa), Turkey hay còn gọi là HSD (Sai khác thực có ý nghĩa),
Scheffe hay Duncan. Tùy theo tình huống mà lựa chọn một phân tích post hoc thích
hợp. Trong trường hợp ví dụ 14 này chúng ta có thể lựa chọn LSD.
Kết quả phân tích phương sai được trình bày ở bảng 10. Một số kết quả quan
trọng mà chúng ta quan tâm bao gồm
Intercept = CF = Chỉ số hiệu chỉnh
Source = Các nguồn giải thích sự biến động của biến động của biến phụ
thuộc. Trong ví dụ này chính là các nguồn gây nên sự biến động của năng suất lúa. Có
hai nguồn biến động cơ bản tạo nên tổng biến động (total) của năng suất lúa. Đó là biến
động do yếu tố thí nghiệm gây nên (công thức phân bón) và biến động do yếu tố ngẫu
nhiên (tất cả những yếu tố còn lại = error)
Sum of square = SS= Tổng các bình phương. Một cách cụ thể hơn là
tổng các bình phương độ lệch giữa các giá trị quan sát và trung bình tổng thể.
26
Bảng 10. Kết quả phân tích phương sai một nhân tố ở ví dụ 14
Kiểm tra ảnh hưởng giữa các nhóm (Tests of Between-Subjects Effects)
Biến phụ thuộc (Dependent Variable): Năng suất
Source S S df M S F Sig.
Corrected Model 19,25 4,00 4,81 38,25 0,00
Intercept 454,95 1,00 454,95 3615,56 0,00
Công thức phân bón 19,25 4,00 4,81 38,25 0,00
Error 1,89 15,00 0,13
Total 476,09 20,00
Corrected Total 21,14 19,00
R Squared=R2 = ,911 (Adjusted R Squared =R2 điểu chỉnh= ,887)
df = độ tự do
MS = Trung bình bình phương, chính là ước tính của phương sai. Trung
bình bình phương chính là tỷ số giữa tổng bình phương và độ tự do. Ví dụ trung bình
bình phương của công thức phân bón là 4,81, chính là tỷ số 19,25/4.
F = Giá trị F tính toán. Mỗi giá trị F chính là tỷ số giữa mỗi trung bình
bình phương và trung bình bình phương ngẫu nhiên. Ví dụ giá trị F tính toán của công
thức phân bón là 38,25, chính là tỷ số 4,81/0,13.
Sig. = Mức độ tin cậy (Significance)
SST otal = SSIntercept +SSYếu tố thí nghiệm+SSerror = SSIntercept +SSCôn g thức phân
bón+SSerror
SSCorrected total=SSYếu tố thí nghiệm + SSerror = SSCông thức phân bón + SSerror
Qua bảng 10 ta thấy rằng công thức phân bón đã ảnh hưởng đến năng suất lúa,
có nghĩa là bác bỏ giả thuyết H0 đồng thời chấp nhận giả thuyết HA. Các công thức
phân bón khác nhau mang lại năng suất lúa khác nhau. Do chấp nhận giả thuyết HA cho
nên ta tiến hành phân tích post hoc để chỉ ra năng suất lúa ở công thức phân bón nào
thực sự khác với công thức nào.
Kết quả phân tích post hoc được thể hiện ở bảng 14.
Mean difference= Sự sai khác giữ 2 trung bình cần so sánh.
Std. Error = SD= Sai số chuẩn của sự sai khác giữa 2 giá trị trung bình =
Standard error of difference = sqrt (2xMSE/n).
SQRT() là hàm để tính căn bậc 2
MSE là ước tính của phương sai của sai số, trong bảng 10 MSE là
0,13
n = số lần lặp lại, trong ví dụ này n =4
27
Bảng 11. Kết quả phân tích post hoc ví dụ 14
Đa so sánh (Multiple Comparisons)
Biến phụ thuộc (Dependent Variable): Năng suất
LSD = (M1-M2)/sqrt[MSE(1/n1+1/n2]
(I) CT
phân
bón
(J) CT
phân
bón
Mean
Difference
(I-J)
Std.
Error Sig. 95% Confidence Interval
Lower Bound Upper Bound
N0 N1 -1,60 0,25 0,00 -2,13 -1,06
N2 -1,34 0,25 0,00 -1,87 -0,80
N3 -2,59 0,25 0,00 -3,13 -2,06
N4 -2,70 0,25 0,00 -3,23 -2,16
N1 N0 1,60 0,25 0,00 1,06 2,13
N2 0,26 0,25 0,31 -0,27 0,80
N3 -0,99 0,25 0,00 -1,53 -0,46
N4 -1,10 0,25 0,00 -1,63 -0,56
N2 N0 1,34 0,25 0,00 0,80 1,87
N1 -0,26 0,25 0,31 -0,80 0,27
N3 -1,26 0,25 0,00 -1,79 -0,72
N4 -1,36 0,25 0,00 -1,90 -0,83
N3 N0 2,59 0,25 0,00 2,06 3,13
N1 0,99 0,25 0,00 0,46 1,53
N2 1,26 0,25 0,00 0,72 1,79
N4 -0,11 0,25 0,68 -0,64 0,43
N4 N0 2,70 0,25 0,00 2,16 3,23
N1 1,10 0,25 0,00 0,56 1,63
N2 1,36 0,25 0,00 0,83 1,90
N3 0,11 0,25 0,68 -0,43 0,64
Sig. = Mức độ tin cậy
95% Confidence Interval = Khoảng tin cậy 95%
Lower Bound = Khoảng tin cậy cận dưới
Upper Bound = Khoảng tin cậy cận trên
Chúng ta có thể tính toán giá trị LSD bằng cách áp dụng công thức tính LSD
trong bảng 11 ở trên. Trong đó MSE là ước tính phương sai, M1 là trung bình quan sát
của công thức thứ nhất, M2 là trung bình quan sát của công thức thứ 2. n1 là số lần lặp
lại của công thức thứ nhất và n2 là số lần lặp lại của công thức thứ 2.
28
Qua bảng 11 ta thấy rằng năng suất lúa ở các công thức phân bón N1 đến N4 cao
hơn so với năng suất lúa ở công thức đối chứng N0 (P <0,05). Tương tự như vậy ta có
thể so sánh năng suất lúa của công thức N1 so với đối chứng và các công thức phân bón
còn lại. Ta thấy rằng năng suất ở công thức phân bón N1 cao hơn năng suất ở công
thức phân bón N0 (P 0,05) nhưng
thấp hơn các công thức phân bón còn lại (P<0,05). Ta có thể suy diễn tương tự cho các
công thức phân bón N2, N3 và N4.
Chúng ta hoàn toàn có thể sử dụng các kiểm tra post hoc khác như HSD với
cách nhận diện kết quả hoàn toàn tương tự.
Tóm lại, phân tích phương sai hoàn toàn có thể thực hiện một cách đơn giản và
có thể thực hiện đồng thời với các phân tích khác như phân tích thống kê mô tả, phân
tích post hoc.
BÀI 5. PHÂN TÍCH PHƯƠNG SAI CHO CÁC KIỂU THIẾT KẾ THÍ NGHIỆM
KHÁC NHAU
Trong phạm vi của bậc đại học chúng tôi đề cập đến cách phân tích số liệu của 3
kiểu thiết kế thí nghiệm cơ bản: Thiết kế thí nghiệm ngẫu nhiên hoàn toàn (CRD), thiết
kế thí nghiệm theo khối ngẫu nhiên đầy đủ (RCB) và thiết kế thí nghiệm hình vuông la
tinh (LS hay LSD). Chúng tôi cũng chỉ giới thiệu phân tích số liệu của thí nghiệm có
một nhân tố. Bản chất của ví dụ 14 là một thiết kế thí nghiệm kiểu CRD. Do vậy, trong
phần này chúng tôi chỉ giới thiệu phân tích số liệu của thiết kế thí nghiệm RCB và
LSD. Chúng tôi cũng chỉ giới thiệu kỹ thuật phân tích để kiểm tra giả thuyết H0 , những
nội dung đi kèm của phân tích số liệu của các kiểu thiết kế thí nghiệm như phân tích
thống kê mô tả và phân tích post hoc, hoàn toàn tương tự như nội dung trong phần 4,
như đã trình bày ở trên.
5.1. Nguyên tắc của phân tích số liệu của thiết kế thí nghiệm RCB và LSD
Nguyên tắc của hai kiểu thiết kế thí nghiệm này là có khống chế sự sai khác ban
đầu. Mục đích của khống chế sự sai khác ban đầu là bóc tách ảnh hưởng của những
nguồn biến động đã biết ra khỏi nguồn biến động ngẫu nhiên. Trong thiết kế thí nghiệm
RCB đó chính là nguồn biến động tạo nên khối. Trong thiết kế thí nghiệm LSD đó là
nguồn biến động tạo nên yếu tố hàng và cột. Khi bóc tách các nguồn biến động này ra
khỏi biến động ngẫu nhiên thì chúng ta sẽ có kết luận chính xác về ảnh hưởng của yếu
tố thí nghiệm.
Nguyên tắc phân tích số liệu cũng như nhập số liệu của hai kiểu thiết kế thí
nghiệm này là xem xét yếu tố bị khống chế như là yếu tố thí nghiệm. Mọi ứng xử đối
với yếu tố bị khống chế hoàn toàn giống như yếu tố thí nghiệm. Chúng ta có thể biết
ảnh hưởng của yếu tố bị khống chế đến các biến phụ thuộc, nhưng thông thường chúng
29
ta không quan tâm. Trong một số trường hợp chúng ta quan tâm, đó là khi muốn so
sánh hiệu quả của các kiểu thiết kế với nhau.
5.2. Phân tích số liệu từ thí nghiệm kiểu RCB
Ví dụ 15. Một nhóm nghiên cứu thí nghiệm ảnh hưởng của giống lúa đến năng
suất. Thí nghiệm được thiết kế theo kiểu RCB. Kết quả năng suất của các giống lúa
trong các khối khác nhau được thể hiện ở bảng 12. Hảy phân tích ảnh hưởng của giống
lúa đến năng suất.
Bảng 12. Ảnh hưởng của giống đến năng suất lúa trong một thí nghiệm được
thiết kế theo kiểu RCB
Khối Giống Năng suất Khối Giống Năng suất
K1 V1 2,373 K2 V4 5,630
K1 V1 4,076 K2 V4 7,007
K1 V1 7,254 K2 V4 7,735
K1 V2 4,007 K2 V5 3,276
K1 V2 5,630 K2 V5 5,340
K1 V2 7,053 K2 V5 5,080
K1 V3 2,620 K2 V6 3,724
K1 V3 4,676 K2 V6 2,822
K1 V3 7,666 K2 V6 2,706
K1 V4 2,726 K3 V1 4,384
K1 V4 4,838 K3 V1 4,889
K1 V4 6,881 K3 V1 8,582
K1 V5 4,447 K3 V2 5,001
K1 V5 5,549 K3 V2 7,177
K1 V5 6,880 K3 V2 6,297
K1 V6 2,572 K3 V3 5,621
K1 V6 3,896 K3 V3 7,019
K1 V6 1,556 K3 V3 8,611
K2 V1 3,958 K3 V4 3,821
K2 V1 6,431 K3 V4 4,816
K2 V1 6,808 K3 V4 6,667
K2 V2 5,795 K3 V5 4,582
K2 V2 7,334 K3 V5 6,011
30
K2 V2 8,284 K3 V5 6,076
K2 V3 4,508 K3 V6 3,326
K2 V3 6,672 K3 V6 4,425
K2 V3 7,328 K3 V6 3,214
Trước khi phân tích, chúng ta phải xác định mô hình phân tích. Với kiểu thiết kế
thí nghiệm RCB một nhân tố, thì mô hình phân tích có thể như sau:
yij = µ + Bi + Dj + εij
yij = Biến phụ thuộc
µ = Trung bình quần thể
Bi= Ảnh hưởng của khối
Dj=Ảnh hưởng của biến độc lập (giống lúa)
εij = Ảnh hưởng của ngẫu nhiên
Khi chúng ta đã rõ ràng về mô hình phân tích thì chúng ta có thể tiến hành phân
tích theo các bước như sau :
Bước 1 : Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 18.).
Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc.
Chú ý biến phụ thuộc ở đây là biến định lượng.
Bước 3 : Khai báo biến phụ thuộc (dependent variable) và biến độc lập
(fixed factors)(hình 18.). Chúng ta có thể thấy rằng cả yếu tố khối và yếu tố thí nghiệm
được đưa vào mô hình. Nếu chúng ta muốn có kết quả phân tích thống kê mô tả thì ta
thực hiện bước 5.
Bước 4 : Khai báo mô hình phân tích (hình 18). Căn cứ vào mô hình phân
tích để khai báo mô hình. Nếu muốn xem ảnh hưởng đơn lẻ thì ta chọn từng biến một.
Nếu muốn xem ảnh hưởng của tương tác của các biến thì ta chọn đồng thời các biến.
Nếu chúng ta không thực hiện bước này thì máy tính sẽ thực hiện theo chế độ mặc
định. Chế độ mặc định là mô hình phân tích đầy đủ, có nghĩa bao gồm cả ảnh hưởng
đơn lẻ và ảnh hưởng tương tác.
Bước 5 : Vào trình ứng dụng thống kê mô tả trong option (hoàn toàn
giống như ví dụ ở hình 16)
Bước 6 : Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì phải tiến
hành phân tích post hoc. Nếu ta chấp nhận H0, thì không cần thực hiện post hoc (tương
tự như ví dụ ở hình 17). Chúng ta cũng chỉ tiến hành post hoc khi có hơn 2 công thức
thí nghiệm.
31
Hình 18. Tiến trình phân tích số liệu thí nghiệm thiết kế theo kiểu RCB
Kết quả phân tích được thể hiện ở bảng 13.
32
Bảng 13. Kết quả phân tích phương sai ảnh hưởng của giống đến năng suất lúa
trong thí nghiệm thiết kế theo kiểu RCB
Kiểm tra sự khác nhau giữa các nhóm (Tests of Between-Subjects Effects)
Biến phụ thuộc (Dependent Variable): Năng suất
Source Sum of Squares df Mean Square F Sig.
Corrected
Model 66,32 7,00 9,47 4,33 0,00
Intercept 1511,11 1,00 1511,11 690,38 0,00
Khối 9,22 2,00 4,61 2,11 0,13
Giống 57,10 5,00 11,42 5,22 0,00
Error 100,68 46,00 2,19
Total 1678,12 54,00
Corrected
Total 167,01 53,00
R2 = ,397; (R2 điều chỉnh= ,305)
Cách giải thích kết quả hoàn toàn tương tự như ví dụ 14 (kết quả ở bảng 10).
Qua bảng 13 ta thấy rằng yếu tố giống đã ảnh hưởng đến năng suất lúa (P <0,001). Như
vậy, chúng ta bác bỏ giả thuyết H0 và chấp nhận giả thuyết HA. Điều này cũng có nghĩa
là phải tiến hành phân tích post hoc để chỉ ra giống lúa nào sai khác với giống lúa nào.
Kết quả phân tích post hoc được thể hiện ở bảng 14.
Cách diễn giải kết quả hoàn toàn tương tự như kết quả phân tích post hoc ở ví
dụ 14 (bảng 11). Qua kết quả phân tích post hoc ở bảng 14 ta thấy rằng giống lúa V6
có năng suất cao hơn tất cả các giống còn lại, trong khi đó không có sự khác biệt về
năng suất lúa giữa các giống từ V1 đến V5.
Như đề cập ở trên trong mô hình phân tích số liệu của thí nghiệm thiết kế theo
kiểu RCB phải luôn luôn bao gồm cả yếu tố bị khống chế. Tuy nhiên, chúng ta không
quan tâm đến ảnh hưởng của yếu tố bị khống chế (yếu tố khối) đến biến phụ thuộc.
Một số phần mềm tin học thậm chí không đưa kết quả về mức ý nghĩa (giá trị P) của
ảnh hưởng của yếu tố khối. Bảng 15 trình bày kết quả phân tích số liệu theo kiểu RCB
bằng phần mềm GENSTAT.
Trong phần 4, chúng tôi đã đề cập đến các bước phân tích phương sai. Một
trong những bước trong phân tích phương sai là lựa chọn mức độ tin cậy α. Trong nông
nghiệp nói riêng và khoa học nói chung thông thường người ta chấp nhận một mức α là
0,05. Điều này không có nghĩa là chúng ta luôn luôn sử dụng mức α = 0,05. Tùy theo
mục đích và loại hình nghiên cứu (nghiên cứu trong phòng thí nghiệm, nghiên cứu
đồng ruộng) mà chúng ta có thể lựa chọn các mức α khác nhau. Ví dụ thay vì α = 0,05
ta có thể chọn mức α = 0,01 hay 0,1. Điều này có thể thực hiện trong SPSS. Trong các
trình ứng dụng phân tich phương sai luôn luôn có sự lựa chọn OPTION. Chúng ta có
thể thay đổi mức độ tin cậy (significant level) α trong OPTION (hình 19).
33
Bảng 14. Kết quả phân tích post hoc về ảnh hưởng của giống đến năng suất lúa
Multiple Comparisons
Dependent Variable: giatri
LSD
-,86922 ,697423 ,219 -2,27306 ,53462
-,66289 ,697423 ,347 -2,06673 ,74095
-,15178 ,697423 ,829 -1,55562 1,25206
,16822 ,697423 ,810 -1,23562 1,57206
2,27933* ,697423 ,002 ,87549 3,68317
,86922 ,697423 ,219 -,53462 2,27306
,20633 ,697423 ,769 -1,19751 1,61017
,71744 ,697423 ,309 -,68639 2,12128
1,03744 ,697423 ,144 -,36639 2,44128
3,14856* ,697423 ,000 1,74472 4,55239
,66289 ,697423 ,347 -,74095 2,06673
-,20633 ,697423 ,769 -1,61017 1,19751
,51111 ,697423 ,467 -,89273 1,91495
,83111 ,697423 ,239 -,57273 2,23495
2,94222* ,697423 ,000 1,53838 4,34606
,15178 ,697423 ,829 -1,25206 1,55562
-,71744 ,697423 ,309 -2,12128 ,68639
-,51111 ,697423 ,467 -1,91495 ,89273
,32000 ,697423 ,649 -1,08384 1,72384
2,43111* ,697423 ,001 1,02727 3,83495
-,16822 ,697423 ,810 -1,57206 1,23562
-1,03744 ,697423 ,144 -2,44128 ,36639
-,83111 ,697423 ,239 -2,23495 ,57273
-,32000 ,697423 ,649 -1,72384 1,08384
2,11111* ,697423 ,004 ,70727 3,51495
-2,27933* ,697423 ,002 -3,68317 -,87549
-3,14856* ,697423 ,000 -4,55239 -1,74472
-2,94222* ,697423 ,000 -4,34606 -1,53838
-2,43111* ,697423 ,001 -3,83495 -1,02727
-2,11111* ,697423 ,004 -3,51495 -,70727
(J) giong
V2
V3
V4
V5
V6
V1
V3
V4
V5
V6
V1
V2
V4
V5
V6
V1
V2
V3
V5
V6
V1
V2
V3
V4
V6
V1
V2
V3
V4
V5
(I) giong
V1
V2
V3
V4
V5
V6
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
Based on observed means.
The mean difference is significant at the ,05 level.*.
34
Bảng 15. Kết quả phân tích phương sai ảnh hưởng của giống đến năng suất lúa trong
thí nghiệm thiết kế theo kiểu RCB bằng phần mềm GENSTAT
Variate: Năng suất
Source of variation (N. biến động) d.f. s.s. m.s. v. r. F pr.
Khối stratum 2 9,221 4,610 2,11
Khối.*Units* stratum
giống 5 57,100 11,420 5,22 <,001
Residual (hiệu dư) 46 100,684 2,189
Total (tổng) 53 167,006
Hình 19. Thay đổi mức độ tin cậy α trong phân tích phương sai
5.3. Phân tích số liệu từ thí nghiệm kiểu LSD
Ví dụ 16. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của các giống ngô
đến năng suất. Thí nghiệm được thiết kế theo kiểu LSD và kết quả thí nghiệm được
trình bày ở bảng 16. Hãy phân tích kết quả và chứng minh giả thuyết H0 về không có
ảnh hưởng của giống ngô đến năng suất ngô.
Trước khi phân tích chúng ta phải xác định mô hình phân tích. Với kiểu thiết kế
thí nghiệm RCB một nhân tố, thì mô hình phân tích có thể như sau:
35
yijk = µ + Gi + Pj + Dk + εijk
yij = Biến phụ thuộc
µ = Trung bình quần thể
Gi= Ảnh hưởng của yếu tố hàng
Pj= Ảnh hưởng của yếu tố cột
Dk= Ảnh hưởng của yếu tố nghiên cứu
εijk = Ảnh hưởng của ngẫu nhiên
Bảng 16. Năng suất (tấn/ha) của các giống ngô khác nhau, thiết kế thí nghiệm
theo kiểu LSD
Hàng Cột Giống Năng suất
h1 c1 B 1,64
h1 c2 D 1,21
h1 c3 C 1,425
h1 c4 A 1,345
h2 c1 C 1,457
h2 c2 A 1,185
h2 c3 D 1,4
h2 c4 B 1,29
h3 c1 A 1,67
h3 c2 C 0,71
h3 c3 B 1,665
h3 c4 D 1,18
h4 c1 D 1,565
h4 c2 B 1,29
h4 c3 A 1,655
h4 c4 C 0,66
Khi chúng ta đã rõ ràng về mô hình phân tích thì chúng ta có thể tiến hành phân
tích theo các bước như sau :
Bước 1 : Nạp số liệu vào SPSS
Bước 2: Vào trình ứng dụng General Linear Model-Univariate (hình 19.).
Chúng ta sử dụng General Linear Model -Multivariate khi có nhiều biến phụ thuộc.
Chú ý biến phụ thuộc ở đây là biến định lượng.
Bước 3 : Khai báo biến phụ thuộc (dependent variable) và biến độc lập
(fixed factors)(hình 20). Chúng ta có thể thấy rằng cả yếu tố hàng, yếu tố cột và yếu tố
36
thí nghiệm được đưa vào mô hình. Nếu muốn có kết quả phân tích thống kê mô tả thì ta
thực hiện bước 5.
Hình 20. Tiến trình phân tích số liệu thí nghiệm thiết kế theo kiểu LSD
37
Bước 4 : Khai báo mô hình phân tích (hình 18). Căn cứ vào mô hình phân
tích để khai báo mô hình. Nếu muốn xem ảnh hưởng đơn lẻ thì ta chọn từng biến một.
Nếu muốn xem ảnh hưởng của tương tác của các biến thì ta chọn đồng thời các biến.
Nếu chúng ta không thực hiện bước này thì máy tính sẽ thực hiện theo chế độ mặc
định. Chế độ mặc định là mô hình phân tích đầy đủ, có nghĩa bao gồm cả ảnh hưởng
đơn lẻ và ảnh hưởng tương tác. Trong ví dụ này chúng ta chỉ chọn mô hình gồm ảnh
hưởng của nhân tố chính : nhân tố hàng, nhân tố cột, và nhân tố giống. Trong ví dụ này
chúng ta không thể đưa tương tác vào mô hình. Nếu đưa tương tác vào thì chúng ta sẽ
có các mối tương tác sau đây : hàng x cột ; hàng x giống ; cột x giống ; và hàng x cột x
giống. Lý do không thể đưa tương tác vào mô hình vì chúng ta không có đầy đủ độ tự
do cho phân tích phương sai.
Bước 5: Vào trình ứng dụng thống kê mô tả trong option (hoàn toàn
giống như ví dụ ở hình 16.)
Bước 6 : Nếu kết quả bác bỏ giả thuyết H0 và chấp nhận HA thì chúng ta
phải tiến hành phân tích post hoc. Nếu ta chấp nhận H0, thì chúng ta không cần thực
hiện post hoc (tương tự như ví dụ ở hình 17). Chúng ta cũng chỉ tiến hành post hoc khi
có hơn 2 công thức thí nghiệm.
Kết quả phân tích được thể hiện ở bảng 17. Cách diễn giải kết quả hoàn toàn
tương tự như ví dụ phân tích kết quả thiết kế thí nghiệm theo kiểu CRD và RCB. Qua
bảng 17 ta thấy rằng các giống khác nhau tạo nên năng suất khác nhau (P <0,05).
Bảng 17. Kết quả phân tích số liệu thí nghiệm thiết kế theo kiểu LSD
Dependent Variable: Năng suất
Source
Sum of
Squares df
Mean
Square F Sig.
Corrected Model 1,285(a) 9 ,143 6,898 ,014
Intercept 28,481 1 28,481 1375,962 ,000
Hàng ,030 3 ,010 ,485 ,705
Cột ,818 3 ,273 13,178 ,005
Giống ,437 3 ,146 7,030 ,022
Error ,124 6 ,021
Total 29,890 16
Corrected Total 1,409 15
R2 = ,912 (R2 điều chỉnh = ,780)
Kết quả ở bảng 17 không chỉ ra được giống nào có năng suất khác với giống nào
do vậy cần phải phân tích post hoc để kiểm tra sự sai khác theo cặp. Bản chất của kiểm
tra này là phép kiểm tra t. Qua kết quả ở bảng 18 ta thấy rằng giống C có năng suất
thấp hơn tất cả các giống còn lại (P <0,05) và không có sự khác biệt về năng suất giữa
giống ngô A, B và D (P >0,05).
38
Bảng 18. Kết quả phân tích post hoc về ảnh hưởng của các giống ngô đến năng
suất ngô
Đa so sánh (Multiple Comparisons)
Biến phụ thuộc (Dependent Variable): Năng suất
LSD
(I)
Giống
(J)
Giống
Mean
Difference
(I-J) Std. Error Sig. 95% Confidence Interval
Lower
Bound
Upper
Bound
A B -0,01 0,10 0,94 -0,26 0,24
C 0,40 0,10 0,01 0,15 0,65
D 0,13 0,10 0,27 -0,12 0,37
B A 0,01 0,10 0,94 -0,24 0,26
C 0,41 0,10 0,01 0,16 0,66
D 0,13 0,10 0,24 -0,12 0,38
C A -0,40 0,10 0,01 -0,65 -0,15
B -0,41 0,10 0,01 -0,66 -0,16
D -0,28 0,10 0,04 -0,52 -0,03
D A -0,13 0,10 0,27 -0,37 0,12
B -0,13 0,10 0,24 -0,38 0,12
C 0,28 0,10 0,04 0,03 0,52
Như đề cập ở trên rong mô hình phân tích số liệu của thí nghiệm thiết kế theo kiểu
LSD phải luôn luôn bao gồm cả yếu tố bị khống chế. Tuy nhiên, chúng ta không quan
tâm đến ảnh hưởng của yếu tố bị khống chế (yếu tố hàng và yếu tố cột) đến biến phụ
thuộc. Một số phần mềm tin học thậm chí không đưa kết quả về mức ý nghĩa (giá trị P)
của ảnh hưởng của yếu tố hàng và yếu tố cột. Bảng 19 trình bày kết quả phân tích số
liệu theo kiểu LSD bằng phần mềm GENSTAT.
Bảng 19. Kết quả phân tích ANOVA về ảnh hưởng của các giống ngô đến năng
suất ngô bằng phần mềm GENSTAT
Variate: Năng suất
Source of variation (N. Biến động) d.f. s .s. m.s. v.r. F pr.
Hàng stratum 3 0,03014 0,01005 0,49
Cột stratum 3 0,81832 0,27277 13,18
Hàng.Cột stratum
Giống 3 0,43654 0,14551 7,03 0,022
Residual (h iệu dư) 6 0,12419 0,02070
39
Total (tổng) 15 1.40920
Tóm lại, phân tích ANOVA cho các kiểu thiết kế thí nghiệm có sự khống chế
ban đầu, về mặt cơ bản giống với phân tích ANOVA cho kiểu thiết kế thí nghiệm
CRD. Điểm mẫu chốt là xem xét các yếu tố cần được khống chế (yếu tố khối trong
RCB, yếu tố hàng và cột trong LSD) như là yếu tố thí nghiệm và chú ý khai báo mô
hình phân tích một cách hợp lý.
BÀI 6. ÁP DỤNG QUY TẮC NGẪU NHIÊN TRONG THIẾT KẾ THÍ NGHIỆM
VỚI MỘT NHÂN TỐ
Ba đặc tính quan trọng của bất kỳ một thí nghiệm nào là: (i) tính lặp lại (ii) tính
ngẫu nhiên và (iii) khống chế sự sai khác ban đầu. Tính ngẫu nhiên ở đây có nghĩa là
các đơn vị thí nghiệm nhận các nghiệm thức hoặc các nghiệm thức được phân chia vào
các đơn vị thí nghiệm một cách ngẫu nhiên. Về cơ bản ta có thể nói rằng việc áp dụng
tính ngẫu nhiên hoàn toàn giống nhau trong các kiểu thiết kế thí nghiệm khác nhau.
Điểm mấu chốt là áp dụng tính ngẫu nhiên ở nơi nào và đối tượng nào. Trong thiết kế
thí nghiệm CRD một nhân tố, tính ngẫu nhiên được áp dụng cùng lúc trên tất cả đơn vị
thí nghiệm. Trong thiết kế thí nghiệm RCB, tính ngẫu nhiên được áp dụng trong mỗi
khối. Ví dụ nếu chúng có 5 khối thì quá trình ngẫu nhiên hóa phải được thực hiện 5 lần.
Mỗi lần cho mỗi khối. Trong thiết kế thí nghiệm kiểu LSD quá trình ngẫu nhiên hóa
bắt đầu từ chọn hình vuông la tinh chuẩn, sau đó ngẫu nhiên hóa trật tự của hàng và
cuối cùng là ngẫu nhiên hóa trật tự của cột.
Chúng ta có thể thực hiện quá trình ngẫu nhiên bằng cách bốc thăm, bóc bài hay
sử dụng các bảng số ngẫu nhiên. Trong nội dung của phần này chúng tôi giới thiệu kỹ
thuật ngẫu nhiên hóa bằng cách dùng hàm RAND() trong EXCEL.
6.1. Ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu CRD và RCB
Như đã nói ở trên, quá trình ngẫu nhiên hóa trong hai kiểu thiết kế thí nghiệm
này hoàn toàn giống nhau. Trong thiết kế RCB, số lần thực hiện ngẫu nhiên hóa bằng
số khối. Ở đây, chúng tôi chỉ lấy một ví dụ về quá trình ngẫu nhiên hóa trong thiết kế
thí nghiệm CRD.
Ví dụ 17. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của 3 chất kích thích
sinh trưởng CT1, CT2 và CT3 đến sinh trưởng của một loại cây trồng A. Thí nghiệm
được tiến hành trong nhà kính. Có 24 đơn vị thí nghiệm, mỗi đơn vị là một chậu. Thí
nghiệm được thiết kế theo kiểu CRD. Hảy phân chia các đơn vị thí nghiệm vào các
nghiệm thức hoặc ngược lại các nghiệm thức vào các đơn vị thí nghiệm.
Bước 1 (B1): Lập danh sách các chậu thí nghiệm và đánh số các chậu
theo thứ tự từ 1-24
Bước 2 (B2): Gán cho mỗi chậu một số ngẫu nhiên bằng cách sử dụng
hàm RAND(). Hàm RAND() cho phép tạo ra các số ngẫu nhiên có giá trị trong khoảng
40
[0-1]. Chúng ta có thể tạo ra các số ngẫu nhiên trong một khoảng giá trị nào đó bằng
cách sử dụng hàm RANDBEETWEEN(giá trị 1; giá trị 2). Điều cần đặc biệt quan tâm
là kết quả hàm RAND() luôn luôn thay đổi do vậy chúng ta phải cố định các giá trị
ngẫu nhiên ngay sau khi đã tạo ra. Quá trình cố định này có thể thực hiện thông qua
trình ứng dụng past special - past value (hình 20). Cần paste các giá trị ngẫu nhiên vừa
tạo ra trên chính các giá trị vừa tạo ra. Mục đích là chuyển từ dạng formula thành dạng
value.
Bảng 20. Quá trình ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu CRD
B1 B2 B3 B4
Chậu thí
nghiệm
Số ngẫu
nhiên
Chất sinh
trưởng
Chậu thí
nghiệm
Số ngẫu
nhiên
Chất sinh
trưởng
1 0,485241372 CT1 1 0,033928302 CT2
2 0,83296448 CT2 2 0,035714957 CT1
3 0,755481259 CT3 3 0,049174649 CT3
4 0,792772895 CT1 4 0,061979632 CT3
5 0,033928302 CT2 5 0,105024436 CT3
6 0,421183444 CT3 6 0,15555833 CT1
7 0,653933273 CT1 7 0,421183444 CT3
8 0,490003494 CT2 8 0,448307137 CT3
9 0,535638176 CT3 9 0,485241372 CT1
10 0,713850843 CT1 10 0,490003494 CT2
11 0,940457894 CT2 11 0,535638176 CT3
12 0,448307137 CT3 12 0,643343235 CT3
13 0,035714957 CT1 13 0,653933273 CT1
14 0,967915049 CT2 14 0,656308708 CT1
15 0,105024436 CT3 15 0,663214746 CT2
16 0,656308708 CT1 16 0,713850843 CT1
17 0,819146507 CT2 17 0,755481259 CT3
18 0,049174649 CT3 18 0,792772895 CT1
19 0,15555833 CT1 19 0,819146507 CT2
20 0,949684416 CT2 20 0,83296448 CT2
21 0,061979632 CT3 21 0,913293136 CT1
22 0,913293136 CT1 22 0,940457894 CT2
23 0,663214746 CT2 23 0,949684416 CT2
24 0,643343235 CT3 24 0,967915049 CT2
Bước 3 (B3): Gán các công thức thí nghiệm vào các chậu theo thứ tự từ
CT1 đến CT3 (Bảng 20)
Bước 4 (B4): Sắp xếp các cột “số ngẫu nhiên” và “chất sinh trưởng” theo
thứ tự tăng dần hoặc giảm dần của “số ngẫu nhiên”.
41
Hình 20. Cố định các giá trị ngẫu nhiên vừa tạo ra
Kết quả của quá trình ngẫu nhiên hóa ta có chậu 1 nhận CT2, chậu 2 nhận CT1,
chậu 3 nhận CT3, chậu 4 nhận CT3.....chậu 24 nhận CT2.
6.2. Ngẫu nhiên hóa trong thiết kế thí nghiệm kiểu LSD
Ví dụ 18. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của các giống ngô
đến năng suất ngô. Thí nghiệm được thiết kế theo kiểu LSD với 3 giống ngô A, B, D
và giống đối chứng C. Hảy thiết kế thí nghiệm.
Quá trình thiết kế thí nghiệm hay áp dụng quy tắc ngẫu nhiên của thí nghiệm
thiết kế theo kiểu LSD được thực hiện theo các bước sau:
Bước 1: Chọn ngẫu nhiên một hình vuông la tinh chuẩn. Trong ví dụ này ta
chọn hình vuông la tin chuẩn 4x4. Thông thường các sách thiết kế thí nghiệm trong
nông nghiệp có phụ lục các hình vuông la tinh chuẩn theo các kích thước khác nhau.
Lưu ý: Chúng ta có thể tạo ra hình vuông la tinh chuẩn
A B C D
B C D A
C D A B
D A B C
Hình 21. Hình vuông la tinh chuẩn 4x4
Bước 2: Ngẫu nhiên hóa trật tự của hàng ngoại trừ hàng thứ nhất. Quá
trình ngẫu nhiên hóa hoàn toàn có thể sử dụng hàm RAND() như trình bày ở trên. Kết
quả được thể hiện ở hình 22.
42
A B C D
C D A B
D A B C
B C D A
Hình 22. Hình vuông la tinh chuẩn 4x4 sau khi đã được ngẫu nhiên hóa trật tự
của hàng
Bước 3: Ngẫu nhiên hóa trật tự của cột. Quá trình ngẫu nhiên hóa hoàn
toàn có thể sử dụng hàm RAND() như trình bày ở trên. Kết quả được thể hiện ở hình
23.
A D C B
C B A D
D C B A
B A D C
Hình 23. Hình vuông la tinh chuẩn 4x4 sau khi đã được ngẫu nhiên hóa trật tự
của hàng và trật tự của cột
Sau khi hoàn thành 3 bước ngẫu nhiên hóa thì đồng thời chúng ta cũng hoàn
thành thiết kế thí nghiệm.
BÀI 7. PHÂN TÍCH HỒI QUY
Phân tích phương sai giúp xác định ảnh hưởng hay không ảnh hưởng của biến
độc lập lên biến phụ thuộc, chứ không thể lượng hóa được ảnh hưởng của biến độc lập
lên biến phụ thuộc. Để lượng hóa được ảnh hưởng của biến độc lập lên biến phụ thuộc,
chúng ta phải giải quyết bằng phân tích hồi quy. Phân tích hồi quy là một lĩnh vực rất
rộng có thể khái quát thành một số nội dung chính như: Hồi quy đơn biến, hồi quy đa
biến, hồi quy tuyến tính và hồi quy phi tuyến tính. Trong phạm vi của chương trình này
chúng tôi chỉ giới thiệu cách phân tích hồi quy đơn biến.
Ví dụ 19. Một nhóm nghiên cứu quan tâm đến ảnh hưởng của hàm lượng lân
đến năng suất lúa. Nhóm nghiên cứu đã tiến hành nghiên cứu và thu thập được số liệu
ở bảng 21.
Có ba vấn đề chính trong phân tích hồi quy
Kiểm tra mức độ tin cậy của hệ số hồi quy
Kiểm tra mức độ tin cậy của các hệ số hồi quy
Xác định mức độ giải thích của hệ số hồi quy
43
Bảng 21. Ảnh hưởng của hàm lượng lân đến năng suất lúa
Hàm lượng lân Năng suất (100 kg/ha)
0,058 63,700
0,057 62,300
0,035 56,200
0,054 58,600
0,046 48,100
0,048 45,300
0,051 53,800
0,045 45,300
0,050 52,400
0,056 60,900
0,056 60,000
0,055 60,000
0,049 46,700
0,050 51,600
0,052 53,800
0,045 43,900
0,057 55,000
0,056 62,300
0,058 56,000
0,058 66,600
0,047 45,300
Quá trình phân tích hồi quy có thể diễn ra theo các bước sau đây:
Bước 1: Nạp số liệu từ EXCEL vào SPSS
Bước 2: Lựa chọn hồi quy đơn biến (hình 24)
Bước 3: Xác định mô hình và khai báo biến độc lập và biến phụ thuộc
(hình 24). Đây là hồi quy đơn biến tuyến tính cho nên có dạng như sau: y = bx + a.
Trong đó y là biến phụ thuộc (năng suất lúa), x là biên độc lập (hàm lượng lân), b là hệ
số gốc hay còn gọi là hệ số hồi quy, a là hằng số.
44
Hình 24. Các bước tiến hành phân tích hồi quy đơn biến.
Kết quả thu được như sau:
Bảng 22. Mức độ ý nghĩa của mô hình
Qua kết quả ở bảng 22 ta có thể kết luận rằng mô hình có thể giải thích được sự
biến động của năng suất lúa (P <0,01). Giả thuyết H0 mà kết quả ở bảng 21 kiểm tra là:
các tham số a và b =0, có nghĩa là mô hình không giải thích được sự biến động của
năng suất. Giả thuyết HA là ít nhất một tham số khác không có nghĩa là hoặc a khác 0
hoặc b khác 0. Cách giải thích các thành phần trên bảng phân tích phương sai ở bảng
22 hoàn toàn tương tự như phần phân tích ANOVA đã nêu trong mục V.
ANOVAb
431,101 1 431,101 15,553 ,001a
526,651 19 27,718
957,751 20
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), lana.
Dependent Variable: nangsuatb.
45
Model = Mô hình giải thích sự biến động của năng suất lúa gồm có hai
thành phần (i) thành phần do hồi quy giải thích (regression) và thành phần do ngẫu
nhiên giải thích (error).
Sum of square = Tổng các bình phưong
df = Độ tự do
Mean Square = ước tính của phương sai
F = Giá trị F tính toán
Sig. = Mức ý nghĩa
Sau khi kiểm tra mức ý nghĩa của mô hình ta phải kiểm tra mức độ tin cậy của
các hệ số hồi quy (bảng 22).
Bảng 23. Giá trị các tham số và mức ý nghĩa của các tham số trong phương
trình hồi quy
Coefficients(a)
Model
Unstandardized
Coefficients t Sig.
B Std. Error
1 (Constant) 14,102766 10,34728459 1,362944 0,188836
Hàm
lượng lân 786,37295 199,3992758 3,94371 0,000871
Dependent Variable: Năng suất
Qua bảng 23 ta có thể xác định được phương trình hồi quy như sau: Năng suất
lúa = 14,103 + 786,37 x hàm lượng lân. Giả thuyết H0 của kiểm tra trong bảng 23 là
mỗi tham số =0 và giả thuyết HA là mỗi tham số khác 0. Khi giá trị của tham số khác 0
thì thực sự nó có ảnh hưởng đến biến phụ thuộc. Các tham số trong bảng 23 có thể
được giải thích như sau:
B = Các hệ số cần ước tính. Trong hồi quy đơn biến như ví dụ này thì có
2 hệ số cần ước tính. Constant = Giá trị của hàng số = a = 14,103; Hàm
lượng lân = b=786,37
Std. Error = Sai số của số trung bình của ước tính
t= Giá trị t tính toán. Giá trị này chính là B/Std.Error
Sig. = Mức ý nghĩa. Qua bảng trên ta thấy rằng hệ số b = 786,37 thực sự
khác 0 ( P <0,05).
46
Bước tiếp theo là kiểm tra mức độ giải thích của mô hình. Nói một cách cụ thể
là mô hình y = bx + a giải thích được bao nhiêu % sự biến động của biến y mà cụ thể là
năng suất lúa trong ví dụ này. Kết quả thể hiện ở bảng 24
Bảng 24. Kiểm tra mức độ giải thích của mô hình
Model R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 ,671(a) ,450 ,421 5,264831
a Predictors: (Constant), lan
R = Hệ số tương quan đơn
R square = Hệ số tương quan bình phương
Adjusted R square: Hệ số tương quan bình phương hiệu chỉnh
Như vậy, phương trình hồi quy có thể giải thích được 45% sự biến động năng
suất.
Các file đính kèm theo tài liệu này:
- NGHIEN CUU CHUYEN SAU.pdf