Častokrát sme sa už stretli s “chybou” značenou ako \(\epsilon\). Túto časť modelu môžeme nazývať chybou merania jedine v prípade, ak sa jedná o dizajnovaný experiment. Podľa R. Berka z článku What You Can and Can’t Properly Do With Regression môžeme regresiu vystupňovať do 3 levelov podľa toho s akými dátam pracujeme.
Dôležité je ako sme sa ku dátam dostali z pohľadu matice X. Najčastejšie sa vám stane, že o pôvode dát veľa neviete. V tomto prípade môžete urobiť prvý stupeň regresie spojený s popisnou štatistikou, rôznymi obrázkami a všetkým, čo sme sa učili v časti vizualizácia.
Pri troche šťastia štatistik dostane do rúk dáta z dobre definovanej populácie a teda matica X je matica náhodných premenných. V tom prípade hovoríme o druhom leveli, kde si môžeme dovoliť okrem popisovania aj odhadovať parametre a rozprávať sa o vhodnosti modelu.
Nakoniec sú prípady, kedy máte maticu X vo svojej “moci” ešte predtým, ako budete merať y. V takom prípade sa dostaneme až po tretí level a ideme sa rozprávať o vplyve “čohosi”, čo nás zaujíma na “niečo”.
Problémy s prediktormi nemusia byť len v pôvode dát a podobne. Niekedy máte prediktorov “príliš veľa” a vzájomne obsahujú tú istú informáciu. Prediktory na seba navzájom latentne vplývajú a sú závislé aj bez toho, aby sme to odhalili pri prvotnej obhliadke. Tomu sa hovorí kolinearita.
Aký spôsom odhalenia kolinearity sme používali do teraz?
Vezmime dáta z poslených cvičení, kde sme si všimli kolinearitu prediktorov, pričom už máme hotovú diagnostiku modelu a vráťme sa k nej.
Ktoré prediktory vykazujú známky kolinearity a prečo?
## expend ratio salary takers total
## expend 1.0000000 -0.371025386 0.869801513 0.5926274 -0.38053700
## ratio -0.3710254 1.000000000 -0.001146081 -0.2130536 0.08125382
## salary 0.8698015 -0.001146081 1.000000000 0.6167799 -0.43988338
## takers 0.5926274 -0.213053607 0.616779867 1.0000000 -0.88711868
## total -0.3805370 0.081253823 -0.439883381 -0.8871187 1.00000000
Spočítajte vlastné čísla a čísla podmienenosti prediktorov, použite funkciu eigen()
. Vykazujú kolinearitu?
## [1] 161436.30458 14027.09923 390.33570 12.47653
## [1] 1.000000 3.392475 20.336746 113.750609
Nakoniec spočítajte variance inflation factors s funkciou vif()
. Vykazuje tento faktor kolinearitu?
## takers ratio salary expend
## 1.755090 2.433204 9.217237 9.465320
Vezmite nové dáta s názvom flg
z knižnice MASS
. Začnite obhliadkou dát. Aký problém dáta popisujú? Vizualizácia sa dá urobiť aj zaujimavejšie cez ggpairs()
pomocou nadstavbovej knižnice GGally
priamo závisiacej na ggplot2
.
## RI Na Mg Al
## Min. :-6.8500 Min. :10.73 Min. :0.000 Min. :0.290
## 1st Qu.:-1.4775 1st Qu.:12.91 1st Qu.:2.115 1st Qu.:1.190
## Median :-0.3200 Median :13.30 Median :3.480 Median :1.360
## Mean : 0.3654 Mean :13.41 Mean :2.685 Mean :1.445
## 3rd Qu.: 1.1575 3rd Qu.:13.82 3rd Qu.:3.600 3rd Qu.:1.630
## Max. :15.9300 Max. :17.38 Max. :4.490 Max. :3.500
## Si K Ca Ba
## Min. :69.81 Min. :0.0000 Min. : 5.430 Min. :0.000
## 1st Qu.:72.28 1st Qu.:0.1225 1st Qu.: 8.240 1st Qu.:0.000
## Median :72.79 Median :0.5550 Median : 8.600 Median :0.000
## Mean :72.65 Mean :0.4971 Mean : 8.957 Mean :0.175
## 3rd Qu.:73.09 3rd Qu.:0.6100 3rd Qu.: 9.172 3rd Qu.:0.000
## Max. :75.41 Max. :6.2100 Max. :16.190 Max. :3.150
## Fe type
## Min. :0.00000 WinF :70
## 1st Qu.:0.00000 WinNF:76
## Median :0.00000 Veh :17
## Mean :0.05701 Con :13
## 3rd Qu.:0.10000 Tabl : 9
## Max. :0.51000 Head :29
Pozrime sa bližšie na najzastúpenejší typ “WinF”.
Skontrolujte kolinearitu za pomoci nástrojov použitých v prvej časti tohto cvičenia.
## Na Mg Al Si K
## Na 1.00000000 -0.273731961 0.15679367 -0.06980881 -0.266086504
## Mg -0.27373196 1.000000000 -0.48179851 -0.16592672 0.005395667
## Al 0.15679367 -0.481798509 1.00000000 -0.00552372 0.325958446
## Si -0.06980881 -0.165926723 -0.00552372 1.00000000 -0.193330854
## K -0.26608650 0.005395667 0.32595845 -0.19333085 1.000000000
## Ca -0.27544249 -0.443750026 -0.25959201 -0.20873215 -0.317836155
## Ba 0.32660288 -0.492262118 0.47940390 -0.10215131 -0.042618059
## Fe -0.24134641 0.083059529 -0.07440215 -0.09420073 -0.007719049
## Ca Ba Fe
## Na -0.2754425 0.32660288 -0.241346411
## Mg -0.4437500 -0.49226212 0.083059529
## Al -0.2595920 0.47940390 -0.074402151
## Si -0.2087322 -0.10215131 -0.094200731
## K -0.3178362 -0.04261806 -0.007719049
## Ca 1.0000000 -0.11284097 0.124968219
## Ba -0.1128410 1.00000000 -0.058691755
## Fe 0.1249682 -0.05869176 1.000000000
Čísla podmienenosti.
## [1] 1187324 638 346 141 54 31 21 2
## [1] 1.00000 43.13830 58.56925 91.63385 148.39162 196.00138 236.34262
## [8] 795.06343
Variance inflation factors.
## typeVeh Fe typeWinNF typeTabl typeCon typeHead
## 1.181588 1.222365 1.634233 1.725493 2.129753 5.348073
## Ba Al K Si Na Ca
## 28.736428 29.154269 47.476044 66.321817 70.272181 212.541968
## Mg
## 222.070714
Fitnite do dát plný regresný model s RI
ako odozvou a urobte diagnsotiku.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 11.680948 67.730218 0.1725 0.8632480
## Na 0.609281 0.668397 0.9116 0.3631004
## Mg 1.320172 0.672685 1.9625 0.0510864
## Al -0.927898 0.704158 -1.3177 0.1890978
## Si -0.616370 0.684598 -0.9003 0.3690224
## K 0.740068 0.687885 1.0759 0.2832864
## Ca 2.471503 0.666998 3.7054 0.0002731
## Ba 1.975690 0.701977 2.8145 0.0053741
## Fe 0.363295 0.738794 0.4917 0.6234419
## typeWinNF 0.099964 0.173525 0.5761 0.5652090
## typeVeh -0.885794 0.261112 -3.3924 0.0008351
## typeCon 0.399101 0.396868 1.0056 0.3158103
## typeTabl 0.392627 0.425118 0.9236 0.3568216
## typeHead 1.582335 0.438899 3.6052 0.0003938
##
## n = 214, p = 14, Residual SE = 0.95026, R-Squared = 0.91
Majú koeficienty logicky správne hodnoty?
Sformulujte záver plného regresného modelu.
Vezmite dáta happy
, do ktorých fitnite plný regresný model s happy
ako odozvou. Urobte: