Từ bảng 2 cho thấy:
- R bình phương hiệu chỉnh nhỏ nhất (0,276) ở
mô hình Logistic và R bình phương hiệu chỉnh cao
nhất ở mô hình S-curve (0,764).
- Các mô hình hồi quy đều phù hợp ở độ tin cậy
95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5%
(Sig=0,000<0,05).
- Các mô hình Quadratic, Cubic và Logistic khi
hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn
5% nên các tham số hồi quy không có ý nghĩa ở độ
tin cậy 95%. Do vậy các dạng mô hình hồi quy này
sẽ bị loại, không được xem xét lựa chọn.
Bảng 3. Hệ số tương quan giữa Kn và SL
Correlations
Kn SL
Kn Pearson Correlation 1 0,824**
Sig. (2-tailed) 0,000
N 60 60
SL Pearson Correlation 0,824** 1
Sig. (2-tailed) 0,000
N 60 60
**. Correlation is signifi cant at the 0.01 level (2-tailed).
Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824.
Bảng 4. Phương trình hồi quy đơn biến giữa biến Kn và SL
TT Dạng mô hình Phương trình hồi quy đơn biến
1 Linear SL=1855,832+511,680Kn
2 Logarithmic SL= -5003,975+ 5293,777ln(Kn)
3 Inverse SL= 12231,766-(48097,374/Kn)
4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2
5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3
6 Power SL= 1039,758+Kn 0,822
7 Compound SL= 3064,606+1,081Kn
8 S-curve SL= e (9,639-(7,620/Kn))
9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn)))
10 Growth SL= e (8,028+(,078*Kn))
11 Exponential SL= 3064,606*(e (0,078*Kn))
Hình 2. Biểu diễn các dạng mô hình hồi quyTạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
198 • TRƯỜNG ĐẠI HỌC NHA TRANG
So sánh các điều kiện lựa chọn mô hình hồi
quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi
chọn mô hình S-curve cho hồi quy của mình. Kết
quả phương trình hồi quy thu được SL= e (9,639-(7,620/
Kn)). Có tới 76% sự biến thiên của biến SL được giải
thích bởi biến Kn, cao hơn so với các mô hình khác,
đồng thời mô hình và các tham số hồi quy đều tồn
tại và phù hợp.
III. KẾT LUẬN
SL và Kn có mối tương quan rất cao.
Mô hình hồi quy phù hợp để hồi quy số liệu trên
là mô hình S-curve.
Để áp dụng và giải quyết tốt hơn mục tiêu đề ra
ta cần áp dụng phương pháp này trong từng nghiên
cứu cụ thể và so sánh đối chiếu với thực tiễn.
5 trang |
Chia sẻ: thucuc2301 | Lượt xem: 753 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Giải pháp lựa chọn mô hình hồi quy đơn biến - Phạm Văn Thông, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
194 • TRƯỜNG ĐẠI HỌC NHA TRANG
VAÁN ÑEÀ TRAO ÑOÅI
GIẢI PHÁP LỰA CHỌN MÔ HÌNH HỒI QUY ĐƠN BIẾN
SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL
Phạm Văn Thông1
Ngày nhận bài: 27/8/2014; Ngày phản biện thông qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015
TÓM TẮT
Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một
biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc
trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa
đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình
hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn
biến phù hợp nhất cho nghiên cứu của mình.
Từ khóa: Hồi quy đơn biến
ABSTRACT
In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a
dependent variable) on another variable (an explanatory variable). Then they can estimate or predict the average value of
dependent variables basing on known-value of the explanatory variables. Scientists have carried out in this way frequently;
however, they have not shown scientifi c foundations of their univariate regression models. The author have studied and
introduced 11 types of univariate regression models, and provided scientifi c foundations in order to help scientists and
students choose the best univariate regression models in their researches .
Keyword: Univariate Regression
1 ThS. Phạm Văn Thông: Viện Khoa học và Công nghệ khai thác thủy sản - Trường Đại học Nha Trang
I. MỞ ĐẦU
Hồi quy đơn biến là mô hình thống kê được sử dụng
để dự đoán giá trị của biến phụ thuộc (dependence
variable) hay còn gọi là biến kết quả dựa vào những
giá trị của một biến độc lập (independence variable)
hay còn gọi là biến nguyên nhân.
Hiện nay, các nhà nghiên cứu, các học viên cao
học thường hồi quy theo mô hình đường thẳng
(linear) mà chưa đưa ra được cơ sở lý luận khoa
học để giải thích vì sao chọn mô hình đường thẳng
hay bất kỳ dạng mô hình nào khác. Một số khác đưa
ra dẫn chứng chưa thuyết phục như dạng mô hình
này đơn giản, dễ tính toán.
Bài báo này cung cấp cho các nhà nghiên cứu,
các học viên cao học và độc giả nói chung cơ sở lý
luận khoa học đúng đắn giải thích cho việc lựa mô
hình hồi quy của mình.
II. NỘI DUNG
1. Phân tích các dạng mô hình
Với sự phát triển mạnh mẽ của công nghệ
thông tin, việc hồi quy không cần nhiều thời gian
tính toán như trước mà nó được trợ giúp bởi rất
nhiều phần mềm từ đơn giản như Microsoft Excel
đến phần mềm PASW Statistics 18 hay phần mềm
R, phần mềm Eview, phần mềm Stata Tuy nhiên
trong bài báo này tôi muốn đề cập một số khía cạnh
của hai phần mềm đơn giản và thông dụng hiện nay
là Microsoft Excel 2010 và PASW Statistics 18.
- Microsoft Excel 2010 là công cụ phổ thông,
đơn giản trong tính toán, có hỗ trợ hồi quy đơn biến,
tuy nhiên số lượng mô hình mà Excel 2010 đưa ra ít
(chỉ 6 dạng mô hình). Khi hồi quy từ Excel 2010, kết
quả chỏ có phương trình hồi quy với hệ số tương
quan giữa biến độc lập và biến phụ thuộc mà chưa
cung cấp được các chỉ số để đánh giá mô hình
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
TRƯỜNG ĐẠI HỌC NHA TRANG • 195
hồi quy hay các chỉ số tồn tại trong phương trình
hồi quy.
Các dạng mô hình hồi quy mà Excel 2010 cung
cấp như sau [4]:
1. Linear: Y = b0 + (b1 * X)
2. Logarithmic: Y = b0 + (b1 * ln(X))
3. Polynomial: Y = b0 + (b1 * X) + (b2 * X
2) (dạng bậc 2)
Dạng bậc 3: Y = b0 + (b1 * X) + (b2 * X
2) + (b3 * X
3)
4. Power: Y = b0 * (X
b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
5. Exponentail: Y = b0 * (e
(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
6. Moving Average: Không có dạng phương trình.
- Trong khi đó phần mềm PASW Statistics 18
cung cấp nhiều dạng mô hình hồi quy (11 dạng mô
hình), đồng thời cung cấp các tham số số như R2
điều chỉnh, giá trị Sig trong bảng Anova để đánh
giá sự phù hợp của mô hình, giá trị Sig trong bảng
Coeffi cients để đánh giá các tham số hồi quy có ý
nghĩa không, đồng thời cũng cho biết giá trị hệ số
tương quan giữa biến độc lập và biến phụ thuộc.
Các dạng mô hình hồi quy mà PASW Statistics
18 cung cấp như sau [5,6]:
1. Linear: Y = b0 + (b1 * X)
2. Logarithmic: Y = b0 + (b1 * ln(X))
3. Inverse: Y = b0 + (b1 / X)
4. Quadratic: Y = b0 + (b1 * X) + (b2 * X
2)
5. Cubic: Y = b0 + (b1 * X) + (b2 * X
2) + (b3 * X
3)
6. Power: Y = b0 * (X
b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
7. Compound: Y = b0 * (b1
X) hoặc ln(Y) = ln(b0) + (ln(b1) * X)
8. S-curve: Y = e(b0 + (b1/X)) hoặc ln(Y) = b0 + (b1/X)
9. Logistic: Y = 1 / (1/u + (b0 * (b1
X)) hoặc ln(1/y-1/u)=
ln (b0) + (ln(b1)*X). u là giá trị giới hạn trên, nó mang
giá trị dương và lớn hơn giá trị lớn nhất của biến
phụ thuộc. Ví dụ giá trị lớn nhất của biến phụ thuộc
là 100 thì u chọn là 101 (u=101).
10. Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X)
11. Exponential: Y = b0 * (e
(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
Chú giải: b0 là các hằng số; b1 là hệ số hồi quy
được; X là biến độc lập; Y là biến phụ thuộc.
Tiêu chí đánh giá [1,2]:
- Tham số R bình phương hiệu chỉnh (adjusted
R square) cho biết mức độ % sự biến thiên của biến
phụ thuộc được giải thích bởi biến độc lập. R bình
phương hiệu chỉnh càng cao càng tốt vì biến độc lập
giải thích được nhiều cho biến phụ thuộc.
- Giá trị Sig (P-value) của bảng anova dùng để
đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị
Sig nhỏ (thường <5%) thì mô hình tồn tại trong điều
kiện độ tin cậy chấp nhận là 5%.
- Gía trị Sig trong bảng coeffi cients cho biết các
tham số hồi quy có ý nghĩa hay không, với độ tin cậy
95% thì Sig<5% là có ý nghĩa.
- Hệ số tương quan cho biết mức độ tương
quan giữa biến phụ thuộc và biến độc lập (thường
sử dụng hệ số tương quan pearson).
Với những hạn chế của Excel nói chung, nên
tôi chọn SPSS để thực hiện đồng loạt các mô hình
này. Tôi sử dụng chức năng đường cong ước lượng
(curve estimation) trong SPSS.
Bảng 1. Số liệu dùng để phân tích curve estimation trong PASW Statistics 18
TT Kn SL TT Kn SL TT Kn SL
1 7 5.500 21 12 8.000 41 16 9.500
2 5 3.000 22 10 9.000 42 9 7.500
3 7 5.000 23 11 8.500 43 10 9.500
4 6 4.500 24 14 8.000 44 13 8.000
5 5 4.000 25 12 7.000 45 15 9.500
6 7 5.500 26 12 7.000 46 12 8.000
7 6 4.500 27 8 6.500 47 15 9.000
8 10 5.500 28 9 5.500 48 14 10.000
9 7 4.000 29 13 10.000 49 14 8.500
10 8 4.500 30 8 5.500 50 15 8.500
11 9 5.000 31 8 5.500 51 13 10.000
12 11 7.500 32 8 4.500 52 13 8.000
13 9 7.000 33 11 9.000 53 10 7.500
14 8 6.500 34 10 7.000 54 15 9.000
15 10 7.500 35 9 7.000 55 11 8.500
16 10 7.500 36 12 7.500 56 15 8.500
17 9 8.000 37 14 9.500 57 14 9.500
18 11 8.500 38 17 10.000 58 12 10.000
19 10 8.000 39 13 7.500 59 12 10.000
20 7 5.500 40 13 7.500 60 14 7.500
Chú giải: - Kn-Kinh nghiệm thuyền trưởng, đơn vị tính là năm; SL- Sản lượng khai thác của nghề lưới kéo ven bờ tại thành phố Nha Trang,
đơn vị tình là kg.
- Số liệu trong bảng 1 được lấy ngẫu nhiên bằng hàm randbetween(min, max) trong excel.
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
196 • TRƯỜNG ĐẠI HỌC NHA TRANG
2. Kết quả
Hình 1. Chọn các mô hình hồi quy trong PASW Statistics 18
Bảng 2. Tổng hợp các tham số để đánh giá mô hình hồi quy
TT Dạng mô hình R2 điều chỉnh Sig. (Anova) Sig. (Coeffi cients)
1 Linear 0,673 0,000
Kn
Hằng số
0,000
0,001
2 Logarithmic 0,715 0,000 KnHằng số
0,000
0,000
3 Inverse 0,713 0,000 1/ KnHằng số
0,000
0,000
4 Quadratic 0,722 0,000
Kn
Kn2
Hằng số
0,000
0,000
0,052
5 Cubic 0,717 0,000
Kn
Kn2
Kn3
Hằng số
0,165
0,518
0,767
0,336
6 Power 0,737 0,000 Ln(Kn)Hằng số
0,000
0,000
7 Compound 0,668 0,000 KnHằng số
0,000
0,000
8 S-curve 0,764 0,000 1/KnHằng số
0,000
0,000
9 Logistic 0,276 0,000 KnHằng số
0,000
0,374
10 Growth 0,668 0,000 KnHằng số
0,000
0,000
11 Exponential 0,668 0,000 KnHằng số
0,000
0,000
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
TRƯỜNG ĐẠI HỌC NHA TRANG • 197
Từ bảng 2 cho thấy:
- R bình phương hiệu chỉnh nhỏ nhất (0,276) ở
mô hình Logistic và R bình phương hiệu chỉnh cao
nhất ở mô hình S-curve (0,764).
- Các mô hình hồi quy đều phù hợp ở độ tin cậy
95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5%
(Sig=0,000<0,05).
- Các mô hình Quadratic, Cubic và Logistic khi
hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn
5% nên các tham số hồi quy không có ý nghĩa ở độ
tin cậy 95%. Do vậy các dạng mô hình hồi quy này
sẽ bị loại, không được xem xét lựa chọn.
Bảng 3. Hệ số tương quan giữa Kn và SL
Correlations
Kn SL
Kn Pearson Correlation 1 0,824**
Sig. (2-tailed) 0,000
N 60 60
SL Pearson Correlation 0,824** 1
Sig. (2-tailed) 0,000
N 60 60
**. Correlation is signifi cant at the 0.01 level (2-tailed).
Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824.
Bảng 4. Phương trình hồi quy đơn biến giữa biến Kn và SL
TT Dạng mô hình Phương trình hồi quy đơn biến
1 Linear SL=1855,832+511,680Kn
2 Logarithmic SL= -5003,975+ 5293,777ln(Kn)
3 Inverse SL= 12231,766-(48097,374/Kn)
4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2
5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3
6 Power SL= 1039,758+Kn 0,822
7 Compound SL= 3064,606+1,081Kn
8 S-curve SL= e (9,639-(7,620/Kn))
9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn)))
10 Growth SL= e (8,028+(,078*Kn))
11 Exponential SL= 3064,606*(e (0,078*Kn))
Hình 2. Biểu diễn các dạng mô hình hồi quy
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
198 • TRƯỜNG ĐẠI HỌC NHA TRANG
So sánh các điều kiện lựa chọn mô hình hồi
quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi
chọn mô hình S-curve cho hồi quy của mình. Kết
quả phương trình hồi quy thu được SL= e (9,639-(7,620/
Kn)). Có tới 76% sự biến thiên của biến SL được giải
thích bởi biến Kn, cao hơn so với các mô hình khác,
đồng thời mô hình và các tham số hồi quy đều tồn
tại và phù hợp.
III. KẾT LUẬN
SL và Kn có mối tương quan rất cao.
Mô hình hồi quy phù hợp để hồi quy số liệu trên
là mô hình S-curve.
Để áp dụng và giải quyết tốt hơn mục tiêu đề ra
ta cần áp dụng phương pháp này trong từng nghiên
cứu cụ thể và so sánh đối chiếu với thực tiễn.
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Văn Chức (2013). Phân tích hồi quy tuyến tính với SPSS. Diễn đàn giải pháp kinh doanh thông minh (BIS) (http://
bis.net.vn/forums/p/722/1565.aspx).
2. Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005). Phân tích dữ liệu nghiên cứu với SPSS. NXB Thống kê.
3. Nguyễn Văn Tuấn (2007). Chương trình huấn luyện y hoa - ykhoa.net.
Tiếng Anh
4. Information Technology Services. Excel 2010-Basic learning guide. Tufts University.
5. PASW Statistics 18 Core System User’s Guide.
6. Thomas, M. S. C., Annaz, D., Ansari, D., Serif, G., Jarrold, C., & Karmiloff-Smith, A. (2009). Using developmental trajectories
to understand developmental disorders. Journal of Speech, Language, and Hearing Research, 52, 336-358.
Các file đính kèm theo tài liệu này:
- so_2_2015_33_pham_van_thong_5994_2024448.pdf