BÀI TẬP TIN HỌC ỨNG DỤNG + BÀI GIẢI
BÀI 1
Ta lập bảng dữ liệu với 2 biến định lượng là tieudung và thunhap như sau:
gen thunhap=0
label variable thunhap “thunhap”
gen tieudung=1
label variable tieudung “tieudung”
sau đó tiến hành nhập số liệu vào bảng Data editor
BÀI 2
Ta lập bảng dữ liệu với biến định lượng là doanhthu và biến định tính là cuahang như sau:
* Lệnh tạo biến và nhãn biến:
gen doanhthu=1
label variable doanhthu “doanhthu”
gen cuahang=1
BÀI 3->BÀI 11
21 trang |
Chia sẻ: tlsuongmuoi | Lượt xem: 2604 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài tập tin học ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BÀI 1
Ta lập bảng dữ liệu với 2 biến định lượng là tieudung và thunhap như sau:
gen thunhap=0
label variable thunhap “thunhap”
gen tieudung=1
label variable tieudung “tieudung”
sau đó tiến hành nhập số liệu vào bảng Data editor
a. Dùng lệnh tabstat lập bảng thống kê mô tả và vẽ biểu đồ
* Lập bảng thống kê mô tả:
Lệnh: tabstat tieudung thunhap, statistics(max min mean range var sd)
Ta được kết quả như sau:
stats | tieudung thunhap
---------+--------------------
max | .95 1.8
min | .18 .25
mean | .4538636 .7897727
range | .77 1.55
variance | .0412429 .1715139
sd | .2030834 .4141424
------------------------------
Phân tích kết quả:
+ Yếu tố thu nhập: Xét bảng giá trị ta thấy: Thu nhập lớn nhất là 1,8; thu nhập nhỏ nhất là 0,25; khoảng biến động là khá lớn = 1,55; Giá trị thu nhập trung bình là 0,7897727; Giá trị trung vị là 0,7; Độ lệch chuẩn của thu nhập là 0,4141424.
+ Yếu tố tiêu dùng: Tiêu dùng lớn nhất là 0,95 và nhỏ nhất là 0,18 với khoảng biến động là 0,77; tiêu dùng bình quân là 0,4538636; giá trị trung vị là 0,4 và độ lệch chuẩn của mẫu là 0,2030834.
* Vẽ biểu đồ mật độ của thu nhập trên đó có vẽ đường cong chuẩn và nhận xét:
+ Lệnh: hist thunhap, normal
Ta được đồ thị như sau:
Qua đồ thị ta thấy thu nhập phân bố lệch so với đường cong chuẩn.
b. Ta tạo biến mới là lnthunhap và lntieudung:
* Lệnh tạo biến:
gen lnthunhap=ln(thunhap)
gen lntieudung=ln(tieudung)
* Vẽ đồ thị:
+ Biến thu nhập: ta vẽ biểu đồ của thu nhập sau khi loga hóa:
Lệnh: histogram lnthunhap, normal
Ta được đồ thị:
Với đồ thị mới này thì ta thấy dạng phân bố chuẩn hơn so với trước khi loga hóa biến thu nhập, phân bố khá sát và đều so với đường cong chuẩn.
+ Biến tiêu dùng
- Biểu đồ trước khi loga:
Lệnh: histogram tieudung, normal
Ta có đồ thị:
- Sau khi loga hóa ta có đồ thị:
Lệnh: histogram lntieudung, normal
Như vậy nhìn vào đồ thị sau khi loga hóa thì dạng phân bố đồng đều quanh đường cong chuẩn hơn so với trước đó.
BÀI 2
Ta lập bảng dữ liệu với biến định lượng là doanhthu và biến định tính là cuahang như sau:
* Lệnh tạo biến và nhãn biến:
gen doanhthu=1
label variable doanhthu “doanhthu”
gen cuahang=1
+ Ta đặt giá trị cho biến định tính với cuahang1= 1 và cuahang2 = 2
Lệnh: label define cuahang1 “cuahang1” 2 “cuahang2”
label values cuahang cuahang
* Nhập dữ liệu vào bảng theo các biến đã lập.
* Tạo biến giả
Lệnh: tab cuahang, gen(cuahang)
ta có kết quả: là hai biến mới cuahang1 và cuahang2.
cuahang | Freq. Percent Cum.
------------+-----------------------------------
cua hang1 | 15 50.00 50.00
cua hang2 | 15 50.00 100.00
------------+-----------------------------------
Total | 30 100.00
* Để so sánh doanh thu của hai cửa hàng ta lập mô hình tương quan giữa doanh thu và cửa hàng 1
Lệnh: reg doanhthu cuahang1
Ta có kết quả:
Source | SS df MS Number of obs = 30
-------------+------------------------------ F( 1, 28) = 2.49
Model | .92576341 1 .92576341 Prob > F = 0.1260
Residual | 10.4229733 28 .372249047 R-squared = 0.0816
-------------+------------------------------ Adj R-squared = 0.0488
Total | 11.3487367 29 .391335749 Root MSE = .61012
------------------------------------------------------------------------------
thunhap | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
cuahang1 | .3513333 .2227851 1.58 0.126 -.1050213 .807688
_cons | 4.172 .1575329 26.48 0.000 3.849309 4.494691
------------------------------------------------------------------------------
Phân tích kết quả:
Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,1260 > 0,05) cho nên mô hình trên không có ý nghĩa thống kê. Tức là không thể so sánh được doanh thu của hai cửa hàng này với lượng mẫu như trên với giả thiết rằng doanh thu trong ngày có phân phối gần chuẩn.
BÀI 3
Bước 1: Ta lập biến định lượng là lượng tiêu thụ và biến định tính là mùa
*Lệnh:
gen luongtieuthu=1
label variable luongtieuthu “luongtieuthu”
gen mua=1
label variable mua “mua”
+ Ta quy ước biến định tính với 1= xuân, 2 = hạ, 3 = thu, 4 = đông.
*Lệnh: label define mua 1 “xuan” 2 “ha” 3 “thu” 4 “dong”
label values mua mua
* Nhập dữ liệu vào bảng
Bước 2: Để so sánh ảnh hưởng của mùa đến lượng tiêu thụ ta tiến hành lập biến giả của mùa như sau:
*Lệnh: tab mua, gen(mua)
Ta sẽ có bốn biến giả mới đó là mua1, mua2, mua3, mua4 tương ứng với xuân, hạ, thu, đông.
mua | Freq. Percent Cum.
------------+-----------------------------------
xuan | 20 25.00 25.00
ha | 20 25.00 50.00
thu | 20 25.00 75.00
dong | 20 25.00 100.00
------------+-----------------------------------
Total | 80 100.00
Bước 3:
Ta lập mô hình hồi quy giữa luongtieuthu và các mùa để so sánh ảnh hưởng:
Lệnh: reg luongtieuthu mua1 mua2 mua3
Ta có kết quả như sau:
Source | SS df MS Number of obs = 80
-------------+------------------------------ F( 3, 76) = 6.53
Model | 9.48299947 3 3.16099982 Prob > F = 0.0005
Residual | 36.8089976 76 .484328916 R-squared = 0.2049
-------------+------------------------------ Adj R-squared = 0.1735
Total | 46.2919971 79 .585974647 Root MSE = .69594
------------------------------------------------------------------------------
luongtieuthu | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mua1 | .685 .2200747 3.11 0.003 .2466832 1.123317
mua2 | .925 .2200747 4.20 0.000 .4866831 1.363317
mua3 | .67 .2200747 3.04 0.003 .2316832 1.108317
_cons | 4.67 .1556163 30.01 0.000 4.360063 4.979937
------------------------------------------------------------------------------
*Qua bảng kết quả ta thấy được:
+ Lượng tiêu thụ trung bình của mua4 tương ứng với mùa đông là nhỏ nhất với giá trị là 4,67. So với mùa đông thì: giá trị trung bình của mùa xuân cao hơn là 0,685; giá trị trung bình của mùa hạ cao hơn là 0,925; giá trị trung bình mùa thu cao hơn là 0,67. Tất cả các giá trị ở cột P>|t| đều nhỏ hơn 0,05 do đó tất cả các so sánh đều có ý nghĩa thống kê. Kết luận lượng tiêu thụ mùa hạ là lớn nhất, sau đó đến mùa xuân, mùa thu và thấp nhất là mùa đông.
BÀI 5
Bước 1: Tạo biến định lượng là saisobeday và biến định tính là loaivan
Saisobeday = beday - 10 nếu loại ván là 10mm và saisobeday = beday - 20 nếu loại ván là 20mm
* Lệnh:
gen saisobeday=1
gen loaivan=1
label variable saisobeday "saisobeday"
label variable loaivan "loaivan"
label define loaivan 1 "10mm" 2 "20mm"
label value loaivan loaivan
* Nhập số liệu tương ứng với các biến đã lập.
Bước 2: Lập biến giả cho biến định tính là loại ván
*Lệnh: tab loaivan, gen(loai)
Ta có thêm hai biến là loai1 và loai2 với loai1 là ván 10 mm và loai2 tương ứng với ván 20 mm.
loaivan | Freq. Percent Cum.
------------+-----------------------------------
1 | 20 50.00 50.00
2 | 20 50.00 100.00
------------+-----------------------------------
Total | 40 100.00
Bước 3: Xem xét mối quan hệ
*Lệnh: reg saisobeday loai1
Ta có kết quả như sau:
Source | SS df MS Number of obs = 40
-------------+------------------------------ F( 1, 38) = 0.80
Model | .011560001 1 .011560001 Prob > F = 0.3755
Residual | .546200009 38 .014373684 R-squared = 0.0207
-------------+------------------------------ Adj R-squared = -0.0050
Total | .55776001 39 .014301539 Root MSE = .11989
------------------------------------------------------------------------------
saisobeday1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
loai1 | .034 .0379126 0.90 0.375 -.0427501 .1107501
_cons | -.023 .0268083 -0.86 0.396 -.0772705 .0312705
------------------------------------------------------------------------------
*Qua bảng kết quả ta thấy được:
Ta thấy Prob>F lớn hơn 0,05 cho nên mô hình không có ý nghĩa thống kê. Ta có thể kết luận rằng sai số bề dày không phụ thuộc vào loại ván sản xuất
*Lệnh: reg saisobeday loai2
Source | SS df MS Number of obs = 40
-------------+------------------------------ F( 1, 38) = 0.80
Model | .011560001 1 .011560001 Prob > F = 0.3755
Residual | .546200009 38 .014373684 R-squared = 0.0207
-------------+------------------------------ Adj R-squared = -0.0050
Total | .55776001 39 .014301539 Root MSE = .11989
------------------------------------------------------------------------------
saisobeday1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
loai2 | -.034 .0379126 -0.90 0.375 -.1107501 .0427501
_cons | .011 .0268083 0.41 0.684 -.0432705 .0652705
------------------------------------------------------------------------------
*Qua bảng kết quả ta thấy được:
Ta thấy Prob>F lớn hơn 0,05 cho nên mô hình không có ý nghĩa thống kê. Ta có thể kết luận rằng sai số bề dày không phụ thuộc vào loại ván sản xuất
BÀI 8
Ta lập bảng dữ liệu với biến định lượng là thunhapbq và 2 biến định tính là congty và thanhpho như sau:
* Lệnh tạo biến và nhãn biến:
gen thunhapbq=1
label variable thunhapbq “thunhapbq”
gen congty=1
label variable congty “congty”
gen thanhpho=1
label variable thanhpho “thanhpho”
+ Ta gán giá trị cho biến định tính congty với 1-Cong ty 1, 2-Cong ty 2, 3-Cong ty 3, 4-Cong ty 4, 5-Cong ty 5.
+ Ta gán giá trị cho biến định tính thanhpho với 1- vinh, 2- hanoi, 3- haiphong
Lệnh: - label define congty 1 "cong ty 1"
- label define congty 2 "cong ty 2", add
- label define congty 3 "cong ty 3", add
- label define congty 4 "cong ty 4", add
- label define congty 5 "cong ty 5", add
- label values congty congty
- label define thanhpho 1 "vinh"
- label define thanhpho 2 "hanoi", add
- label define thanhpho 3 "hai phong", add
- label values thanhpho thanhpho
* Nhập dữ liệu vào bảng theo các biến đã lập.
* Tạo biến giả
Lệnh: tab thanhpho, gen(tp)
ta có kết quả: là 3 biến mới tp1, tp2 và tp3.
thanhpho | Freq. Percent Cum.
------------+-----------------------------------
vinh | 5 33.33 33.33
ha noi | 5 33.33 66.67
hai phong | 5 33.33 100.00
------------+-----------------------------------
Total | 15 100.00
Lệnh: tab congty, gen(cty)
ta có kết quả: là 5 biến mới cty1, cty2, cty3, cty4 và cty5
congty | Freq. Percent Cum.
------------+-----------------------------------
cong ty 1 | 3 20.00 20.00
cong ty 2 | 3 20.00 40.00
cong ty 3 | 3 20.00 60.00
cong ty 4 | 3 20.00 80.00
cong ty 5 | 3 20.00 100.00
------------+-----------------------------------
Total | 15 100.00
* Để so sánh thu nhập bình quân theo địa điểm ta lập mô hình tương quan giữa thu nhập bình quân và các thành phố. Ta thực hiện như sau:
Lệnh: reg thunhapbq tp1 tp2
Source | SS df MS Number of obs = 15
-------------+------------------------------ F( 2, 12) = 0.04
Model | .354613377 2 .177306688 Prob > F = 0.9610
Residual | 53.2390864 12 4.43659053 R-squared = 0.0066
-------------+------------------------------ Adj R-squared = -0.1589
Total | 53.5936998 14 3.82812141 Root MSE = 2.1063
------------------------------------------------------------------------------
thunhapbq | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tp1 | -.3200001 1.332155 -0.24 0.814 -3.222516 2.582516
tp2 | .0119999 1.332155 0.01 0.993 -2.890516 2.914516
_cons | 13.48 .9419756 14.31 0.000 11.42761 15.53239
------------------------------------------------------------------------------
Phân tích kết quả:
Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,9610 > 0,05) cho nên mô hình trên không có ý nghĩa thống kê. Tức là không thể so sánh được thu nhập bình quân theo địa điểm hay chênh lệch về thu nhập bình quân là không có ý nghĩa về mặt thống kê.
Tương ứng với hàng tp1 và tp2 ta có giá trị tại cột Coef. đều xấp xỉ bằng 0 và tương ứng với hàng tp1 và tp2 ta có giá trị tại cột P>|t| đều nhỏ hơn 0,05 có nghĩa rằng hệ số của 2 biến độc lập này không tồn tại trong tổng thể.
* Để so sánh thu nhập bình quân theo công ty ta lập mô hình hồi qui biến phụ thuộc là thunhapbq với các biến độc lập là cty1, cty2, cty3, cty4
Lệnh: reg thunhapbq cty1 cty2 cty3 cty4
Source | SS df MS Number of obs = 15
-------------+------------------------------ F( 4, 10) = 118.01
Model | 52.4819003 4 13.1204751 Prob > F = 0.0000
Residual | 1.11179943 10 .111179943 R-squared = 0.9793
-------------+------------------------------ Adj R-squared = 0.9710
Total | 53.5936998 14 3.82812141 Root MSE = .33344
------------------------------------------------------------------------------
thunhapbq | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
cty1 | 1.973334 .2722498 7.25 0.000 1.366723 2.579944
cty2 | 5.213334 .2722498 19.15 0.000 4.606723 5.819944
cty3 | 4.456667 .2722498 16.37 0.000 3.850057 5.063277
cty4 | 2.16 .2722498 7.93 0.000 1.55339 2.766611
_cons | 10.61667 .1925097 55.15 0.000 10.18773 11.0456
------------------------------------------------------------------------------
Phân tích kết quả:
Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,0000 < 0,05) cho nên mô hình trên có ý nghĩa thống kê.
Căn cứ vào các giá trị ở cột Coef. cho ta phương trình biểu diễn quan hệ giữa thunhapbq và các biến cty như sau:
Thunhapbq = 10.61667 + 1.97*cty1 + 5.21*cty2 + 4.46*cty3 + 2.16*cty4
Tương ứng với hàng cty1, cty2, cty3, cty4 và _cons ta có giá trị tại cột Coef. đều lớn hơn 1 và tương ứng với hàng cty1, cty2, , cty3, cty4 và _cons ta có giá trị tại cột P>|t| đều nhỏ hơn 0,05 có nghĩa rằng hệ số của các biến độc lập này tồn tại trong tổng thể.
Tức là có thể so sánh được thu nhập bình quân theo các công ty hay chênh lệch về thu nhập bình quân là có ý nghĩa về mặt thống kê.
Qua bảng kết quả ta thấy:
- Thu nhập bình quân của nhân viên tại công ty 5 là nhỏ nhất
- So với thu nhập bình quân của nhân viên tại công ty 5 thì:
Thu nhập bình quân của nhân viên tại công ty 1 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 1.93 triệu đồng
Thu nhập bình quân của nhân viên tại công ty 2 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 5.21 triệu đồng
Thu nhập bình quân của nhân viên tại công ty 3 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 4.46 triệu đồng
Thu nhập bình quân của nhân viên tại công ty 4 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 2.16 triệu đồng
Kết luận: Thu nhập bình quân của nhân viên có sự chênh lệnh đáng kể giữa các công ty (công ty 1, công ty 2, … cụ thể thu nhập bình quân của các nhân viên tại công ty 2 là cao nhất, sau đó là tại công ty 3, công ty 4, công ty 1 và thấp nhất là tại công ty 5) mà không phụ thuộc vào địa điểm (thành phố Vinh, Hà Nội, Hải Phòng) nơi mở các chi nhánh của công ty.
DATASET
BÀI 9
a, Thăm dò quanhệ bằng đồ thị phân tán (scatter) giữa thu nhập và tiêu dùng ở VN
Ta lập bảng dữ liệu với 2 biến định lượng là tieudung và thunhap với các bước sau:
* Lệnh tạo biến và nhãn biến
gen thunhap=0
label variable thunhap “thunhap”
gen tieudung=1
label variable tieudung “tieudung”
* Nhập dữ liệu vào bảng
Lệnh: twoway (scatter tieudung thunhap)
Ta có đồ thị phân tán như sau:
Qua đồ thị ta thấy giữa thu nhập và tiêu dùng có một quan hệ tuyến tính khá chặt có chiều tăng.
b, Phân tích hồi quy, diễn giải quan hệ giữa thu nhập và tiêu dùng.
*Lệnh: reg tieudung thunhap
Ta được bảng kết quả như sau:
Source | SS df MS Number of obs = 44
-------------+------------------------------ F( 1, 42) = 808.80
Model | 1.68589672 1 1.68589672 Prob > F = 0.0000
Residual | .087546375 42 .002084438 R-squared = 0.9506
-------------+------------------------------ Adj R-squared = 0.9495
Total | 1.77344309 43 .041242863 Root MSE = .04566
------------------------------------------------------------------------------
tieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
thunhap | .4781142 .0168117 28.44 0.000 .4441869 .5120415
_cons | .0762621 .0149554 5.10 0.000 .046081 .1064432
------------------------------------------------------------------------------
Phân tích kết quả
Từ bảng trên ta thấy:
+ Prob>F nhỏ hơn 0,05 nên mô hình có ý nghĩa thống kê tức là tiêu dùng có phụ thuộc vào thu nhập.
+ R-squared= 0,9506 nói lên rằng 95,06 % sự thay đổi của tiêu dùng là do thu nhập.
+ Với hệ số Coef ta có phương trình hồi quy:
tieudung = 0,4781142*thunhap + 0,0762621
Phương trình này nói lên rằng nếu thu nhập tăng 1 đơn vị sẽ kéo theo tiêu dùng tăng 0,47811242 đơn vị.
+ Tương ứng với hàng thu nhập ta có t=28.44 với P>|t| nhỏ hơn 0,05 chứng tỏ rằng hệ số của biến độc lập có tồn tại trong tổng thể (Bác bỏ giả thuyết Ho cho rằng không tồn tại hệ số của biến độc lập trong tổng thể). Tương ứng với hàng _cons ta có t =5,1 với P>|t| nhỏ hơn 0,05 chứng tỏ hằng số cũng có tồn tại trong tổng thể (Bác bỏ giả thuyết Ho cho rằng không tồn tại hằng số trong tổng thể).
+ Ta cũng thấy được rằng 95% giá trị của thu nhập nằm trong khoảng từ 0,4441869 đến 0,5120415 và 95% giá trị của hằng số nằm trong khoảng từ 0,046081 đến 0,1064432.
c. Phân tích hồi quy, diễn giải quan hệ giữa thu nhập tiêu dùng sau khi đã loga hóa
* chỉ loga hóa biến thu nhập
gen lnthunhap=ln(thunhap)
gen lntieudung=ln(tieudung)
Lệnh: reg tieudung lnthunhap
Ta được bảng kết quả
Source | SS df MS Number of obs = 44
-------------+------------------------------ F( 1, 42) = 414.77
Model | 1.61037511 1 1.61037511 Prob > F = 0.0000
Residual | .163067978 42 .003882571 R-squared = 0.9081
-------------+------------------------------ Adj R-squared = 0.9059
Total | 1.77344309 43 .041242863 Root MSE = .06231
------------------------------------------------------------------------------
tieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lnthunhap | .3733192 .0183306 20.37 0.000 .3363266 .4103118
_cons | .5905955 .0115462 51.15 0.000 .5672943 .6138967
------------------------------------------------------------------------------
Phân tích kết quả
+ Ta thấy Prob>F nhỏ hơn 0,05 như vậy mô hình có ý nghĩa thống kê.
+ Ta có phương trình hồi quy: tieudung = 0,3733192*lnthunhap + 0,5905955
Phương trình này nói lên được rằng nếu thu nhập tăng 1% thì tiêu dùng tăng 0,003733192.
+ Tương ứng với hàng thu nhập và _cons thì P>|t| đều nhỏ hơn 0,05 cho nên cả hệ số và hằng số đều có ý nghĩa trong tổng thể.
* Chỉ loga hóa biến tiêu dùng
Lệnh: reg lntieudung thunhap
Source | SS df MS Number of obs = 44
-------------+------------------------------ F( 1, 42) = 319.04
Model | 7.57090516 1 7.57090516 Prob > F = 0.0000
Residual | .996671154 42 .023730266 R-squared = 0.8837
-------------+------------------------------ Adj R-squared = 0.8809
Total | 8.56757631 43 .199245961 Root MSE = .15405
------------------------------------------------------------------------------
lntieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
thunhap | 1.013188 .0567241 17.86 0.000 .8987141 1.127662
_cons | -1.686281 .0504607 -33.42 0.000 -1.788115 -1.584447
------------------------------------------------------------------------------
Phân tích kết quả:
+ Prob > F nhỏ hơn 0,05 cho nên mô hình có ý nghĩa thống kê.
+ Các giá trị P>|t| đều nhỏ hơn 0,05 cho nên các hệ số của biến thunhap và _cons đều có ý nghĩa thống kê.
+ Ta có phương trình tương quan:
lntieudung = 1,013188*thunhap – 1,686281
Nếu thu nhập tăng một đơn vị thì kéo theo tiêu dùng thay đổi 101,3188 %.
* Trường hợp loga hóa hai biến.
Lệnh: reg lntieudung lnthunhap
Source | SS df MS Number of obs = 44
-------------+------------------------------ F( 1, 42) = 749.90
Model | 8.1131794 1 8.1131794 Prob > F = 0.0000
Residual | .454396909 42 .010818974 R-squared = 0.9470
-------------+------------------------------ Adj R-squared = 0.9457
Total | 8.56757631 43 .199245961 Root MSE = .10401
------------------------------------------------------------------------------
lntieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lnthunhap | .8379389 .0305992 27.38 0.000 .7761872 .8996905
_cons | -.5791896 .019274 -30.05 0.000 -.6180861 -.540293
Phân tích kết quả:
+ Prob > F nhỏ hơn 0,05 cho nên mô hình có ý nghĩa thống kê.
+ Hệ số P>|t| của lnthunhap và _cons đều nhỏ hơn 0,05 cho nên hệ số của biến độc lập và hằng số có ý nghĩa thống kê.
+ Ta có phương trình tương quan:
lntieudung = 0,83799389*lnthunhap – 0,5791896
Ý nghĩa của phương trình là nếu thu nhập tăng 1 % thì kéo theo tiêu dùng tăng 0,83799389 %.
BÀI 11
PHẦN A
* Tạo các biến và nhãn:
+ Lệnh:
gen year=1
gen gdp=1
gen c=1
gen i=1
gen g=1
gen yd=1
gen tn=1
gen nx=1
gen wwii=1
label variable year “nam”
label variable gdp “tongsanphamquocnoi”
label variable c “tieudung”
label variable i “dau tu”
label variable g “chitieuchinhphu”
label variable yd “thunhapkhadung”
label variable tn “thue”
label variable nx “xuatkhaurong”
label variable wwii “tu1944den1947”
+ Nhập số liệu vào bảng
+ Tạo biến giả cho wwii
*Lệnh: tab wwii, gen(gd)
Ta có thêm hai biến mới là gd2 tương ứng với từ năm 1944 đến 1947 và gd1 tương ứng với những năm còn lại.
wwii | Freq. Percent Cum.
------------+-----------------------------------
0 | 70 94.59 94.59
1 | 4 5.41 100.00
------------+-----------------------------------
Total | 74 100.00
* Xem xét mối quan hệ giữa các biến.
+ Xét tương quan hồi quy của tất cả các biến
*Lệnh: reg gdp c i g yd tn nx gd1
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 7, 66) =51070.97
Model | 473661576 7 67665939.5 Prob > F = 0.0000
Residual | 87446 66 1324.93939 R-squared = 0.9998
-------------+------------------------------ Adj R-squared = 0.9998
Total | 473749022 73 6489712.63 Root MSE = 36.4
------------------------------------------------------------------------------
gdp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
c | 1.259981 .0814965 15.46 0.000 1.097268 1.422694
i | .1483592 .040042 3.71 0.000 .0684127 .2283057
g | .5337982 .0396507 13.46 0.000 .4546329 .6129634
yd | -.080166 .0744574 -1.08 0.286 -.2288251 .0684931
tn | .6247164 .0633636 9.86 0.000 .4982069 .751226
nx | .7310825 .0892004 8.20 0.000 .5529881 .9091769
gd1 | -33.97566 21.00405 -1.62 0.111 -75.91161 7.96029
_cons | -33.32301 23.28922 -1.43 0.157 -79.82143 13.17541
------------------------------------------------------------------------------
Xét cả mô hình vẫn có ý nghĩa thống kê nhưng hệ số của hai biến yd và gd1 lại không có ý nghĩa.
+ Để xét đa cộng tuyến trong mô hình ta tính thừa số tăng phương sai và xem xét hệ số tương quan giữa các biến với nhau:
*Lệnh: vif
Variable | VIF 1/VIF
-------------+----------------------
c | 1095.55 0.000913
yd | 1083.85 0.000923
tn | 47.39 0.021101
i | 17.99 0.055579
g | 17.83 0.056083
nx | 4.02 0.248552
gd1 | 1.26 0.793713
-------------+----------------------
Mean VIF | 323.99
Ta thấy hai biến gd1 và nx có thừa số tăng phương sai nhỏ nên không ảnh hưởng đến phương sai của các biến khác, còn các biến còn lại có thừa số tăng phương sai rất lớn nên có hiện tượng đa cộng tuyến giữa chúng.
Ta xem xét hệ số tương quan giữa các biến có khả năng đa cộng tuyến
*Lệnh: correlate c i g yd tn
(obs=74)
| c i g yd tn
-------------+---------------------------------------------
c | 1.0000
i | 0.9596 1.0000
g | 0.9083 0.8319 1.0000
yd | 0.9987 0.9522 0.9200 1.0000
tn | 0.9826 0.9443 0.9358 0.9838 1.0000
Ta có thể thấy được chúng có tương quan rất mạnh.
Từ bảng hồi quy ban đầu ta thấy t của các biến trừ biến yd đều lớn hơn 2 như vậy ta còn t tương ứng với yd nhỏ hơn 2 nên nguyên nhân của đa cộng tuyến có thể xuất phát từ yd. Và biến gd1 không có đa cộng tuyến mà không có ý nghĩa thống kê trong mô hình nên ta có thể khẳng định rằng không có sự ảnh hưởng của hai giai đoạn này đến các biến còn lại và ta loại ra khỏi mô hình.
Do đó ta xét mô hình hồi quy mới giữa các biến gdp c i g tn nx
*Lệnh: reg gdp c i g tn nx
Ta có kết quả như sau:
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 5, 68) =69057.96
Model | 473655742 5 94731148.5 Prob > F = 0.0000
Residual | 93279.8747 68 1371.76286 R-squared = 0.9998
-------------+------------------------------ Adj R-squared = 0.9998
Total | 473749022 73 6489712.63 Root MSE = 37.037
------------------------------------------------------------------------------
gdp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
c | 1.170626 .0158146 74.02 0.000 1.139068 1.202183
i | .1587165 .0404295 3.93 0.000 .0780407 .2393924
g | .5303941 .0304214 17.43 0.000 .4696892 .591099
tn | .6130048 .0632287 9.70 0.000 .4868338 .7391757
nx | .6704952 .0741199 9.05 0.000 .5225913 .8183992
_cons | -63.27409 9.773505 -6.47 0.000 -82.77682 -43.77136
------------------------------------------------------------------------------
+ Có thể thấy prob>F nhỏ hơn 0,05 cho nên mô hình có ý nghĩa thống kê và
R-squared = 0,9999 cho nên 99,99 % sự thay đổi của gdp là do các biến độc lập.
+ Các giá trị t tương ứng với các biến đều lớn hơn 2 nên ta có thể bỏ qua trường hợp đa cộng tuyến giữa các biến độc lập và các giá trị P>|t| đều nhỏ hơn 0,05 nên tất cả hệ số trong tổng thể đều có ý nghĩa thống kê.
Ta có phương trình tương quan như sau:
gdp = 1,08487*c+0,7820166*i+0,677428*g+0,2503172*tn+1,040939*nx–6,10896
+ Từ phương trình tương quan ta có thể kết luận như sau:
- Với các yếu tố khác không đổi: nếu c thay đổi 1 đơn vị thì làm cho gdp thay đổi cùng hướng 1,08487 đơn vị; Nếu i thay đổi một đơn vị thì kéo theo gdp thay đổi cùng hướng 0,7820166 đơn vị; Nếu g thay đổi một đơn vị kéo theo gdp thay đổi cùng hướng 0,677428 đơn vị; Nếu tn thay đổi một đơn vị thì kéo theo gdp thay đổi cùng hướng 0,2503172 đơn vị; Nếu nx thay đổi 1 đơn vị kéo theo gdp thay đổi cùng hướng là 1,040939 đơn vị.
* Như đã xét ở trên ta đã thấy sự đa cộng tuyến giữa yd và các biến còn lại nên ta xét mối quan hệ giữa chúng:
*Lệnh: reg yd c i g tn
Ta có kết quả :
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 4, 69) =12202.88
Model | 258664463 4 64666115.7 Prob > F = 0.0000
Residual | 365648.146 69 5299.2485 R-squared = 0.9986
-------------+------------------------------ Adj R-squared = 0.9985
Total | 259030111 73 3548357.68 Root MSE = 72.796
------------------------------------------------------------------------------
yd | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
c | 1.078725 .0310827 34.70 0.000 1.016717 1.140733
i | -.1852543 .0740886 -2.50 0.015 -.3330569 -.0374516
g | .2716397 .0597138 4.55 0.000 .1525139 .3907656
tn | -.0370601 .1241105 -0.30 0.766 -.2846537 .2105335
_cons | -21.01135 18.75476 -1.12 0.266 -58.42607 16.40337
------------------------------------------------------------------------------
Hệ số Prob>F nhỏ hơn 0,05 nên mô hình có ý nghĩa thống kê và R-squared = 0,9990 nói lên 99,9 % sự thay đổi của yd là do các biến độc lập.
Tương ứng với các biến độc lập P>|t| đều nhỏ hơn 0,05 nên các hệ số đều có ý nghĩa nên ta có phương trình tương quan sau:
yd = 1,174489*c – 0,7859248* i + 0,1153871* g + 0,3331384*tn – 69,81194
Với các yếu tố khác không đổi: Khi c tăng 1 đơn vị thì yd tăng lên 1,174489 đơn vị và ngược lại; Khi i tăng 1 đơn vị thì yd giảm 0,7859248 đơn vị và ngược lại; khi g tăng 1 đơn vị thì yd tăng lên 0,1153871 đơn vị và ngược lại; Khi tn tăng lên 1 đơn vị thì yd tăng lên 0,3331384 đơn vị và ngược lại.
PHẦN B
* Tạo biến và nhãn biến:
gen lifeex=1
label variable lifeex “tuoithotrungbinh”
gen tv=1
label variable tv “TVtrên100nguoi”
gen popdoc=1
label variable popdoc “dansotrenmotbacsy”
gen gdp=1
label variable gdp “thunhapquocnoi”
* Nhập số liệu vào bảng theo các biến.
* Xét mối quan hệ giữa các biến
* Lệnh: reg lifeex tv popdoc gdp
Ta có bảng kết quả:
Source | SS df MS Number of obs = 119
-------------+------------------------------ F( 3, 115) = 97.34
Model | 9383.53474 3 3127.84491 Prob > F = 0.0000
Residual | 3695.19027 115 32.1320893 R-squared = 0.7175
-------------+------------------------------ Adj R-squared = 0.7101
Total | 13078.725 118 110.836653 Root MSE = 5.6685
------------------------------------------------------------------------------
lifeex | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tv | .116846 .0552265 2.12 0.037 .007453 .226239
popdoc | -.0002884 .0000422 -6.84 0.000 -.000372 -.0002049
gdp | .0007075 .000166 4.26 0.000 .0003787 .0010362
_cons | 60.29627 .9746289 61.87 0.000 58.36572 62.22682
------------------------------------------------------------------------------
+ Hệ số Prob > F=0,0000 nhỏ hơn 0,05 nên mô hình có ý nghĩa thống kê
+ R-squared= 0,7175 nói lên 71,75 % sự thay đổi của tuổi thọ trung bình là do các yêu tố còn lại.
+ Tương ứng với các biến thì P>|t| đều < 0,05 nên các hệ số đều có ý nghĩa thống kê nên ta có phương trình hồi quy:
lifeex = 0,116846 *tv - 0,0002884*popdoc + 0,0007075*gdp + 60.29627
Với điều kiện các yếu tố khác không đổi: Nếu số lượng tv trên 100 người tăng lên 1 đơn vị thì tuổi thọ trung bình tăng lên 0,116846 đơn vị và ngược lại; Nếu số lượng dân trên một bác sỹ tăng lên 1 đơn vị thì tuổi thọ trung bình giảm 0,0002884 đơn vị và ngược lại; Nếu gdp tăng 1 đơn vị thì tuổi thọ trung bình tăng lên là 0,0007075 đơn vị
Các file đính kèm theo tài liệu này:
- Bài tập tin học ứng dụng.doc