1 ÚVOD

Komentáre vypnuté na 1 ÚVOD

Cieľom tejto práce je odhadnúť ekonometrický model lúpeží v štáte South Dakota.

Úlohy:

1. Odhadnúť najlepší klasický model lineárnej regresie (t. j. v modeli sa vysporiadať s prípadnými problémami heteroskedasticity, autokorelácie, multikolinearity).

2. Pomocou RESET testu testovať, či navrhnutý model je vhodne špecifikovaný.

3. Vykonať intervalovú predpoveď vysvetľovanej premennej pre nasledujúce obdobie

 

Vysvetľovaná premenná:    počet lúpeží na 100tis. Obyv (robbery)

Vysvetľujúce premenné:     podiel černošskej populácie (afam)

                                           počet ľudí (population)

                                           reálny osobný dôchodok (income)

                                           hustota obyvateľstva (density)

Štát: South Dakota

Reklamy

2 ODHADNUTIE NAJLEPŠIEHO MODELU

Komentáre vypnuté na 2 ODHADNUTIE NAJLEPŠIEHO MODELU

Za najlepší model príjmeme ten, ktorého premenné budú štatisticky významné a zároveň sa v tomto modeli nebude vyskytovať heteroskedasticita, autokorelácia, multikolinearita.

Pracujeme v programe R. Hladina významnosti α, na ktorej budeme testovať je 0,05.

Heteroskedasticitu zisťujeme funkciou bptest.Hypotézy : H0: v modeli nieje heteroskedasticita , H1: v modeli sa vyskytuje heteroskedasticita. H0 potvrdzujeme ak nám bptestom výjde p hodnota vyššia ako α=0,05.H0 zamietame ak nám bptestom výjde p hodnota nižšia ako α=0,05

Autokoreláciu zisťujeme funkciou dwtest.Hypotézy : H0: v modeli nieje autokorelacia , H1: v modeli sa vyskytuje autokorelácia. H0 potvrdzujeme ak nám dwtestom výjde dw hodnota blízko hodnoty 2.H0 zamietame ak nám dwtestom výjde dw hodnota veľmi odlišná od hodnoty 2.

Multikolinearitu zisťujeme funkciou dwtest.Hypotézy : H0: v modeli nieje Multikolinearita , H1: v modeli sa vyskytuje Multikolinearita. H0 potvrdzujeme ak nám vif-testom výjdu hodnoty všetkých vysvetľovaných, štatisticky významných premenných, menšie ako 5.H0 zamietame sú tieto hodnoty vyššie ako 5.

2.1 Modely s pôvodnými údajmi.

Komentáre vypnuté na 2.1 Modely s pôvodnými údajmi.

V týchto modeloch vystupujú iba pôvodné údaje v štáte South Dakota.

 

> u<-read.csv2(“udaje.csv”,row.names=”year”)

> u

Zdrojové údaje:

robbery     afam population    income   density

1977    17.9 2.339211   0.688480 10441.040 0.0090643

1978    15.9 2.423829   0.688580 11226.220 0.0090656

1979    20.3 2.491668   0.688334 11192.780 0.0090624

1980    20.1 2.524423   0.690851  9843.678 0.0090959

1981    17.8 2.544488   0.689569 10358.300 0.0090790

1982    17.1 2.514136   0.690615 10232.280 0.0090928

1983    15.9 2.519391   0.692985 10195.000 0.0091240

1984    14.9 2.550775   0.697239 11142.620 0.0091800

1985    17.1 2.593929   0.698400 11058.290 0.0091953

1986    16.2 2.641168   0.695980 11349.770 0.0091634

1987    12.3 2.695240   0.696042 11591.310 0.0091642

1988    12.2 2.758011   0.698148 11625.490 0.0091920

1989    11.7 2.845020   0.696691 11857.900 0.0091728

1990    12.4 2.934257   0.696667 12373.360 0.0091790

1991    18.8 2.979279   0.701445 12398.490 0.0092419

1992    16.9 3.050100   0.708698 12755.860 0.0093375

1993    15.0 3.075289   0.716258 12791.290 0.0094371

1994    18.7 3.108550   0.723038 13175.900 0.0095264

1995    25.9 3.149601   0.728251 12980.590 0.0095951

1996    18.9 3.297938   0.730699 13802.360 0.0096274

1997    23.3 3.394381   0.730855 13839.610 0.0096294

1998    20.2 3.438749   0.730789 14536.910 0.0096286

1999    14.1 3.544923   0.733133 14974.520 0.0096595

2.1.1 Modely 1

Komentáre vypnuté na 2.1.1 Modely 1

> model1<-lm(robbery~afam+population+income+density,u)

> summary(model1)

 

Call:

lm(formula = robbery ~ afam + population + income + density,

data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-4.5562 -2.1474 -0.2624  1.7012  5.8267

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.922e+02  6.634e+01  -2.898   0.0096 **

afam        -1.129e+01  8.387e+00  -1.346   0.1949

population  -8.171e+03  5.226e+03  -1.564   0.1353

income      -2.130e-03  1.570e-03  -1.357   0.1916

density      6.492e+05  3.969e+05   1.635   0.1193

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 2.819 on 18 degrees of freedom

Multiple R-squared: 0.4795,     Adjusted R-squared: 0.3638

F-statistic: 4.145 on 4 and 18 DF,  p-value: 0.01491

 

Všetky vysvetľujúce premenné sú málo významné, preto vyhadzujem afam, pretože má najvyššiu hodnotu p.

 

> model1.1<-lm(robbery~population+income+density,u)

> summary(model1.1)

 

Call:

lm(formula = robbery ~ population + income + density, data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-4.2666 -2.3038 -0.2116  1.9284  6.6482

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.517e+02  6.038e+01  -2.513  0.02115 *

population  -5.233e+03  4.849e+03  -1.079  0.29398

income      -3.548e-03  1.189e-03  -2.984  0.00763 **

density      4.201e+05  3.662e+05   1.147  0.26554

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 2.879 on 19 degrees of freedom

Multiple R-squared: 0.4271,     Adjusted R-squared: 0.3366

F-statistic: 4.721 on 3 and 19 DF,  p-value: 0.01261

 

Ešte vždy sa v modeli nachádzajú málo významné premenné, vyhadzujem population , pretože má navyššiu hodnotu p.

 

> model1.2<-lm(robbery~income+density,u)

> summary(model1.2)

 

Call:

lm(formula = robbery ~ income + density, data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-3.7428 -2.4569 -0.6081  1.7178  6.2749

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.781e+02  5.543e+01  -3.213  0.00436 **

income      -3.044e-03  1.098e-03  -2.772  0.01176 *

density      2.496e+04  7.251e+03   3.443  0.00258 **

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 2.891 on 20 degrees of freedom

Multiple R-squared: 0.3919,     Adjusted R-squared: 0.3311

F-statistic: 6.446 on 2 and 20 DF,  p-value: 0.00691

 

V modeli 1.2 už máme významné premenné, preto tento model ideme ďalej testovať.

 

Testujeme heteroskedasticitu pomocou bptest :

H0: nieje heteroskedasticita

H1: je heteroskedasticita

 

> bptest(model1.2)

 

studentized Breusch-Pagan test

 

data:  model1.2

BP = 1.3819, df = 2, p-value = 0.5011

 

P hodnota je väčšia ako α, H0 nezamietame. Môžeme predpokladať, že v modeli 1.2 nieje heteroskedasticita.

 

Testujeme autokoreláciu pomocou dwtest :

H0: nieje autokorelácia

H1: je autokorelácia

 

> dwtest(model1.2,alternative=”two.sided”)

 

Durbin-Watson test

 

data:  model1.2

DW = 1.4019, p-value = 0.05822

alternative hypothesis: true autocorelation is not 0

 

DW hodnota je ďaleko od hodnoty2 , model 1.2 je v tzv. “šedej zone”.

Záver: Model 1.2 zamietame, vytvárame nový model.

2.1.2 Modely 2

Komentáre vypnuté na 2.1.2 Modely 2

Logaritmická transformáacia, model 2.

model2<-lm(log(robbery)~log(afam)+log(population)+log(income)+log(density),u)

> summary(model2)

Call:

lm(formula = log(robbery) ~ log(afam) + log(population) + log(income) +

log(density), data = u)

Residuals:

Min       1Q   Median       3Q      Max

-0.24462 -0.12938 -0.01104  0.10066  0.33037

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)     1880.3363   914.0024   2.057   0.0544 .

log(afam)         -2.3300     1.2376  -1.883   0.0760 .

log(population) -413.2077   210.7683  -1.960   0.0656 .

log(income)       -1.3551     0.9589  -1.413   0.1747

log(density)     428.8655   210.8769   2.034   0.0570 .

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1593 on 18 degrees of freedom

Multiple R-squared: 0.509,      Adjusted R-squared: 0.3999

F-statistic: 4.665 on 4 and 18 DF,  p-value: 0.009254

Ešte vždy sa v modeli nachádzajú málo významné premenné, vyhadzujem income, pretože má najvyššiu hodnotu p.

> model2.1<-lm(log(robbery)~log(afam)+log(population)+log(density),u)

> summary(model2.1)

Call:

lm(formula = log(robbery) ~ log(afam) + log(population) + log(density),

data = u)

Residuals:

Min       1Q   Median       3Q      Max

-0.23296 -0.12386 -0.03878  0.14694  0.25830

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)     1829.261    936.940   1.952  0.06579 .

log(afam)         -3.389      1.011  -3.353  0.00334 **

log(population) -405.048    216.146  -1.874  0.07640 .

log(density)     419.824    216.239   1.941  0.06718 .

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1634 on 19 degrees of freedom

Multiple R-squared: 0.4546,     Adjusted R-squared: 0.3684

F-statistic: 5.278 on 3 and 19 DF,  p-value: 0.008108

V modeli 2.1 už máme významné premenné, preto tento model idem ďalej testovať.

 

Testujeme heteroskedasticitu pomocou bptest :

H0: nieje heteroskedasticita

H1: je heteroskedasticita

> bptest(model2.1)

studentized Breusch-Pagan test

data:  model2.1

BP = 1.2493, df = 3, p-value = 0.7412

P hodnota je väčšia ako α, H0 nezamietame. Môžeme predpokladať, že v modeli 2.1 nieje heteroskedasticita.

 

Testujeme autokoreláciu pomocou dwtest :

H0: nieje autokorelácia

H1: je autokorelácia

> dwtest(model2.1,alternative=”two.sided”)

Durbin-Watson test

data:  model2.1

DW = 1.6105, p-value = 0.1076

alternative hypothesis: true autocorelation is not 0

DW hodnota nieje najidealnejšia, ale rozhodli sme sa juakceptovať, H0 nezamietame, v modeli 2.1 nie je autokorelácia.

 

Testujeme multikolinearitu pomocou vif.

H0: nieje multikolinearita

H1: je multikolinearita

> vif(model2.1)

log(afam) log(population)    log(density)

12.86449     20328.06488     20891.66361

Hodnoty su vyššie ako 5,H0 zamietame,H1prijímame, v modeli 2.1 sa nachádza multikolinearita.

 

Záver: Model 2.1 zamietame, vytvárame nový model

2.1.3 Modely 3

Komentáre vypnuté na 2.1.3 Modely 3

V týchto modeloch využijeme diferenciálnu transformáciu.

>model3<-lm(diff(robbery)~diff(afam)+diff(population)+diff(income)+diff(density),u)

> summary(model3)

 

Call:

lm(formula = diff(robbery) ~ diff(afam) + diff(population) +

diff(income) + diff(density), data = u)

 

Residuals:

Min     1Q Median     3Q    Max

-4.623 -2.230  0.070  1.518  5.615

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)       5.655e-01  1.562e+00   0.362    0.722

diff(afam)       -1.238e+01  2.274e+01  -0.544    0.593

diff(population) -4.417e+03  7.694e+03  -0.574    0.573

diff(income)     -2.699e-03  1.776e-03  -1.520    0.147

diff(density)     3.498e+05  5.864e+05   0.596    0.559

 

Residual standard error: 3.62 on 17 degrees of freedom

Multiple R-squared: 0.2085,     Adjusted R-squared: 0.02222

F-statistic: 1.119 on 4 and 17 DF,  p-value: 0.38

 

Všetky vysvetľujúce premenné sú málo významné, preto vyhadzujem afam, pretože má najvyššiu hodnotu p.

 

>model3.1<-lm(diff(robbery)~diff(population)+diff(income)+diff(density),u)

> summary(model3.1)

 

Call:

lm(formula = diff(robbery) ~ diff(population) + diff(income) +

diff(density), data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-5.2003 -2.1339 -0.0041  1.5906  5.5832

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)      -6.051e-02  1.037e+00  -0.058   0.9541

diff(population) -3.741e+03  7.443e+03  -0.503   0.6214

diff(income)     -3.038e-03  1.631e-03  -1.863   0.0789 .

diff(density)     2.996e+05  5.677e+05   0.528   0.6041

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 3.549 on 18 degrees of freedom

Multiple R-squared: 0.1947,     Adjusted R-squared: 0.06044

F-statistic:  1.45 on 3 and 18 DF,  p-value: 0.2614

 

Ešte vždy sa v modeli nachádzajú málo významné premenné, vyhadzujem population , pretože má najvyššiu hodnotu p.

 

> model3.2<-lm(diff(robbery)~diff(income)+diff(density),u)

> summary(model3.2)

 

Call:

lm(formula = diff(robbery) ~ diff(income) + diff(density), data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-5.2981 -2.1578 -0.0934  1.9891  5.5808

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)    4.423e-02  9.959e-01   0.044   0.9650

diff(income)  -2.958e-03  1.591e-03  -1.860   0.0785 .

diff(density)  1.451e+04  2.025e+04   0.717   0.4823

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 3.478 on 19 degrees of freedom

Multiple R-squared: 0.1834,     Adjusted R-squared: 0.0974

F-statistic: 2.133 on 2 and 19 DF,  p-value: 0.1460

 

Ešte vždy sa v modeli nachádzajú málo významné premenné, vyhadzujem density , pretože má najvyššiu hodnotu p.

 

> model3.3<-lm(diff(robbery)~diff(income),u)

> summary(model3.3)

 

Call:

lm(formula = diff(robbery) ~ diff(income), data = u)

 

Residuals:

Min      1Q  Median      3Q     Max

-5.2171 -1.7167 -0.4599  1.7368  6.1416

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)   0.459348   0.800248   0.574    0.572

diff(income) -0.003067   0.001564  -1.961    0.064 .

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 3.436 on 20 degrees of freedom

Multiple R-squared: 0.1613,     Adjusted R-squared: 0.1193

F-statistic: 3.846 on 1 and 20 DF,  p-value: 0.06394

 

V modeli 3.3 už máme významné premenné, preto tento model ideme ďalej testovať.

 

Testujeme heteroskedasticitu pomocou bptest :

H0: nieje heteroskedasticita

H1: je heteroskedasticita

 

> bptest(model3.3)

 

studentized Breusch-Pagan test

 

data:  model3.3

BP = 2.0019, df = 1, p-value = 0.1571

 

P hodnota je väčšia ako α, H0 nezamietame. Môžeme predpokladať, že v modeli 3.3 nieje heteroskedasticita.

 

Testujeme autokoreláciu pomocou dwtest :

H0: nieje autokorelácia

H1: je autokorelácia

 

> dwtest(model3.3,alternative=”two.sided”)

 

Durbin-Watson test

 

data:  model3.3

DW = 2.1541, p-value = 0.6741

alternative hypothesis: true autocorelation is not 0

 

DW hodnota je blízko 2,H0 nezamietame, v modeli nie je autokorelacia.

Nieje možné testovať multikolinearitu, pretože máme len jednu premennú.

Záver: Model 3.3 zamietame.

2.1.4 Záver modelov s pôvodnými údajmi

Komentáre vypnuté na 2.1.4 Záver modelov s pôvodnými údajmi

Rozhodol som sa rozšíriť model o ďalšie štáty (Tennessee, Texas), pretože všetky premenné nám vychádzajú málovýznamné, prípadne nám nevýchádzajú testy autokorelácie, multikolinearity, prípadne mi ostane len jedna premenná s malou významnosťou.

Older Entries