Častokrát sme sa už stretli s “chybou” značenou ako \(\epsilon\). Túto časť modelu môžeme nazývať chybou merania jedine v prípade, ak sa jedná o dizajnovaný experiment. Podľa R. Berka z článku What You Can and Can’t Properly Do With Regression môžeme regresiu vystupňovať do 3 levelov podľa toho s akými dátam pracujeme.

  1. Popisná - nevieme veľa o pôvode dát
  2. Odhadovanie, predikcie, testovanie parametrov - dáta pochádzajú z dobre definovanej populácie
  3. Kauzálna inferencia - dáta sú výsledky merania poriadne definovaného experimentu

Dôležité je ako sme sa ku dátam dostali z pohľadu matice X. Najčastejšie sa vám stane, že o pôvode dát veľa neviete. V tomto prípade môžete urobiť prvý stupeň regresie spojený s popisnou štatistikou, rôznymi obrázkami a všetkým, čo sme sa učili v časti vizualizácia.

Pri troche šťastia štatistik dostane do rúk dáta z dobre definovanej populácie a teda matica X je matica náhodných premenných. V tom prípade hovoríme o druhom leveli, kde si môžeme dovoliť okrem popisovania aj odhadovať parametre a rozprávať sa o vhodnosti modelu.

Nakoniec sú prípady, kedy máte maticu X vo svojej “moci” ešte predtým, ako budete merať y. V takom prípade sa dostaneme až po tretí level a ideme sa rozprávať o vplyve “čohosi”, čo nás zaujíma na “niečo”.

Problémy s prediktormi nemusia byť len v pôvode dát a podobne. Niekedy máte prediktorov “príliš veľa” a vzájomne obsahujú tú istú informáciu. Prediktory na seba navzájom latentne vplývajú a sú závislé aj bez toho, aby sme to odhalili pri prvotnej obhliadke. Tomu sa hovorí kolinearita.

Aký spôsom odhalenia kolinearity sme používali do teraz?

Detekcia kolinearity

Vezmime dáta z poslených cvičení, kde sme si všimli kolinearitu prediktorov, pričom už máme hotovú diagnostiku modelu a vráťme sa k nej.

Ktoré prediktory vykazujú známky kolinearity a prečo?

##            expend        ratio       salary     takers       total
## expend  1.0000000 -0.371025386  0.869801513  0.5926274 -0.38053700
## ratio  -0.3710254  1.000000000 -0.001146081 -0.2130536  0.08125382
## salary  0.8698015 -0.001146081  1.000000000  0.6167799 -0.43988338
## takers  0.5926274 -0.213053607  0.616779867  1.0000000 -0.88711868
## total  -0.3805370  0.081253823 -0.439883381 -0.8871187  1.00000000

Spočítajte vlastné čísla a čísla podmienenosti prediktorov, použite funkciu eigen(). Vykazujú kolinearitu?

## [1] 161436.30458  14027.09923    390.33570     12.47653
## [1]   1.000000   3.392475  20.336746 113.750609

Nakoniec spočítajte variance inflation factors s funkciou vif(). Vykazuje tento faktor kolinearitu?

##   takers    ratio   salary   expend 
## 1.755090 2.433204 9.217237 9.465320

Prepojenie diagnostika s kolinearitou

Vezmite nové dáta s názvom flg z knižnice MASS. Začnite obhliadkou dát. Aký problém dáta popisujú? Vizualizácia sa dá urobiť aj zaujimavejšie cez ggpairs() pomocou nadstavbovej knižnice GGally priamo závisiacej na ggplot2.

##        RI                Na              Mg              Al       
##  Min.   :-6.8500   Min.   :10.73   Min.   :0.000   Min.   :0.290  
##  1st Qu.:-1.4775   1st Qu.:12.91   1st Qu.:2.115   1st Qu.:1.190  
##  Median :-0.3200   Median :13.30   Median :3.480   Median :1.360  
##  Mean   : 0.3654   Mean   :13.41   Mean   :2.685   Mean   :1.445  
##  3rd Qu.: 1.1575   3rd Qu.:13.82   3rd Qu.:3.600   3rd Qu.:1.630  
##  Max.   :15.9300   Max.   :17.38   Max.   :4.490   Max.   :3.500  
##        Si              K                Ca               Ba       
##  Min.   :69.81   Min.   :0.0000   Min.   : 5.430   Min.   :0.000  
##  1st Qu.:72.28   1st Qu.:0.1225   1st Qu.: 8.240   1st Qu.:0.000  
##  Median :72.79   Median :0.5550   Median : 8.600   Median :0.000  
##  Mean   :72.65   Mean   :0.4971   Mean   : 8.957   Mean   :0.175  
##  3rd Qu.:73.09   3rd Qu.:0.6100   3rd Qu.: 9.172   3rd Qu.:0.000  
##  Max.   :75.41   Max.   :6.2100   Max.   :16.190   Max.   :3.150  
##        Fe             type   
##  Min.   :0.00000   WinF :70  
##  1st Qu.:0.00000   WinNF:76  
##  Median :0.00000   Veh  :17  
##  Mean   :0.05701   Con  :13  
##  3rd Qu.:0.10000   Tabl : 9  
##  Max.   :0.51000   Head :29

Vizualizácia

Pozrime sa bližšie na najzastúpenejší typ “WinF”.

Kolinearita

Skontrolujte kolinearitu za pomoci nástrojov použitých v prvej časti tohto cvičenia.

##             Na           Mg          Al          Si            K
## Na  1.00000000 -0.273731961  0.15679367 -0.06980881 -0.266086504
## Mg -0.27373196  1.000000000 -0.48179851 -0.16592672  0.005395667
## Al  0.15679367 -0.481798509  1.00000000 -0.00552372  0.325958446
## Si -0.06980881 -0.165926723 -0.00552372  1.00000000 -0.193330854
## K  -0.26608650  0.005395667  0.32595845 -0.19333085  1.000000000
## Ca -0.27544249 -0.443750026 -0.25959201 -0.20873215 -0.317836155
## Ba  0.32660288 -0.492262118  0.47940390 -0.10215131 -0.042618059
## Fe -0.24134641  0.083059529 -0.07440215 -0.09420073 -0.007719049
##            Ca          Ba           Fe
## Na -0.2754425  0.32660288 -0.241346411
## Mg -0.4437500 -0.49226212  0.083059529
## Al -0.2595920  0.47940390 -0.074402151
## Si -0.2087322 -0.10215131 -0.094200731
## K  -0.3178362 -0.04261806 -0.007719049
## Ca  1.0000000 -0.11284097  0.124968219
## Ba -0.1128410  1.00000000 -0.058691755
## Fe  0.1249682 -0.05869176  1.000000000

Čísla podmienenosti.

## [1] 1187324     638     346     141      54      31      21       2
## [1]   1.00000  43.13830  58.56925  91.63385 148.39162 196.00138 236.34262
## [8] 795.06343

Variance inflation factors.

##    typeVeh         Fe  typeWinNF   typeTabl    typeCon   typeHead 
##   1.181588   1.222365   1.634233   1.725493   2.129753   5.348073 
##         Ba         Al          K         Si         Na         Ca 
##  28.736428  29.154269  47.476044  66.321817  70.272181 212.541968 
##         Mg 
## 222.070714

Plný model a diagnostika

Fitnite do dát plný regresný model s RI ako odozvou a urobte diagnsotiku.

##              Estimate Std. Error t value  Pr(>|t|)
## (Intercept) 11.680948  67.730218  0.1725 0.8632480
## Na           0.609281   0.668397  0.9116 0.3631004
## Mg           1.320172   0.672685  1.9625 0.0510864
## Al          -0.927898   0.704158 -1.3177 0.1890978
## Si          -0.616370   0.684598 -0.9003 0.3690224
## K            0.740068   0.687885  1.0759 0.2832864
## Ca           2.471503   0.666998  3.7054 0.0002731
## Ba           1.975690   0.701977  2.8145 0.0053741
## Fe           0.363295   0.738794  0.4917 0.6234419
## typeWinNF    0.099964   0.173525  0.5761 0.5652090
## typeVeh     -0.885794   0.261112 -3.3924 0.0008351
## typeCon      0.399101   0.396868  1.0056 0.3158103
## typeTabl     0.392627   0.425118  0.9236 0.3568216
## typeHead     1.582335   0.438899  3.6052 0.0003938
## 
## n = 214, p = 14, Residual SE = 0.95026, R-Squared = 0.91

Majú koeficienty logicky správne hodnoty?

Záver

Sformulujte záver plného regresného modelu.


Samostatná práca

Vezmite dáta happy, do ktorých fitnite plný regresný model s happy ako odozvou. Urobte:

  1. Hrubú diagnostiku modelu
  2. Prezrite model na kolinearitu.
  3. Na základe krokov 1. a 2. navrhnite (ak bude treba) zmenu štruktúry modelu a zopakujte diagnostiku.
  4. Spíšte záver s vašimi výsledkami.