Postupne sme sa dostali na úroveň, kedy sa môžeme začať baviť o štrukrúre modelu. Diagnostika lineárneho modelu sa dá chápať aj ako súhrn nástrojov na preverenie “vhodnosti/kvality”.

Chybná štruktúra modelu môže nesprávne popisovať dáta a dávať vychýlené výsledky.

Na detailnejšie objasnenie toho čo môže chybná štruktúra spôsobit odporúčam prejsť si krátku podkapitolu 6.4 z knihy Linear models with R od J.J.Faraway.

Modelovanie sa vo všeobecnosti môže javiť ako rýdzo subjektívne. Nemusíte sa báť, nič také pravda nie je. Na začiatku sa štatistik (vy) orientuje na základe indícií z dát, neskôr predpokladmi samotného modelu a nakoniec vlastnými skúsenosťami, preto sa štatistiké modelovanie niekedy chápe aj ako remeslo.

Dáta ste sa už naučili prezerať, teraz poďme na ďalší krok. Celá diagnostika je založená na predpokladoch lineárneho modelu, keby neboli splnené, tak ani odhady parametrov by neboli správne. Predpokladáme model \[y=X\beta + \epsilon\] kde \(\epsilon \sim N(0,\sigma^2I)\).

Pozrite sa na model a pokuste sa odvodiť, aké predpoklady má vzhľadom na jeho jednoduchú štruktúru?

Na overovanie predpokladov bola navrhnutá celá rada testov, my sa im budeme snažiť vyhnúť a používať vhodné obrázky, pričom budeme trenovať “oko”.


Základná Diagnostika modelu

Nie je fyzicky možné, aby sme za jedno cvičenie, alebo aj semester, prebrali všetky diagnostiké nástroje lineárneho modelu. Dôležité je, aby ste ovládali základné nástroje, z ktorých postupne vznikali sofistikovaniejšie “triky”.

Pre celistvejšie pochopenie diagnostiky začnime od začiatku a vezmime dáta sat z knižnice faraway. Ako prvé sa oboznámime s problémom a urobíme obhliadku dát. V tomto prípade bude naša odozva total SAT score, pričom math a verbal score nás zaujímať nebude.

Vizualizácia a popisná štatistika

##      expend          ratio           salary          takers     
##  Min.   :3.656   Min.   :13.80   Min.   :25.99   Min.   : 4.00  
##  1st Qu.:4.882   1st Qu.:15.22   1st Qu.:30.98   1st Qu.: 9.00  
##  Median :5.768   Median :16.60   Median :33.29   Median :28.00  
##  Mean   :5.905   Mean   :16.86   Mean   :34.83   Mean   :35.24  
##  3rd Qu.:6.434   3rd Qu.:17.57   3rd Qu.:38.55   3rd Qu.:63.00  
##  Max.   :9.774   Max.   :24.30   Max.   :50.05   Max.   :81.00  
##      total       
##  Min.   : 844.0  
##  1st Qu.: 897.2  
##  Median : 945.5  
##  Mean   : 965.9  
##  3rd Qu.:1032.0  
##  Max.   :1107.0

Čo nám hovorí popisná štatistika a počiatočná vizualizácia?

Takýchto obrázkov si môžeme urobiť mnoho, aby sme lepšie pochopili ako vplývajú predikotry na SAT skóre. Teraz fitnite do dát model s total ako odozvou, kde takers, salary, ratioa expend budú predikory. Skontrolujte a okomentujte základný výstup z modelu.

## 
## Call:
## lm(formula = total ~ takers + salary + ratio + expend, data = satt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -90.531 -20.855  -1.746  15.979  66.571 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1045.9715    52.8698  19.784  < 2e-16 ***
## takers        -2.9045     0.2313 -12.559 2.61e-16 ***
## salary         1.6379     2.3872   0.686    0.496    
## ratio         -3.6242     3.2154  -1.127    0.266    
## expend         4.4626    10.5465   0.423    0.674    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 32.7 on 45 degrees of freedom
## Multiple R-squared:  0.8246, Adjusted R-squared:  0.809 
## F-statistic: 52.88 on 4 and 45 DF,  p-value: < 2.2e-16

Variancia residuálov modelu

Po tom, čo ste fitli do dát model ako prvé overíme “okom” predpoklad kladený na varianciu residuálov. Z teorie lineárneho modelu vieme, že má byť konštantná. Na znázornenie použite funkciu plot(model,1) na model.

  • Je variancia konštantná? Poriadne vysvetlite svoju odpoveď.
  • Čo znamenajú body, ktoré majú na obrázku popis?

Teraz uvažujme všeobecný prípad heteroskedastickej variancie, na aké hodnoty vo výstupe má vplyv?

Normalita residuálov modelu

Rovnako overte aj predpodklad normality residualov, použite napríklad funkciu qqPlot().

Nezvyčajné pozorovania

Nezvyčajné pozorovania môžu byť aj chyby meraní alebo chyba v zápise dát, v opačnom prípade nesú extra informáciu a poriadny štatistik na takého body upozornuje.

Pákove body

Prvý typ tzv. nezvyčajných pozorovaní, svoj názov si nezaslúžil len tak, viete mi povedať prečo?

Znázornite si hatvalues pomocou rovnomennej funkcie a použite funkciu halfnorm().

##        Utah  California Connecticut  New Jersey    New York      Alaska 
##   0.2921128   0.2821179   0.2254519   0.2220978   0.1915752   0.1803061

Na odhalenie pákových bodov sme použili hatvalues, vysvetlite prečo.

Outliere

Najmenej škodné nezvyčajné pozorovanie

  • Ako odhalím outlier?
  • Aký vplyv má prípadný outlier na model?

Vplyvné pozorovania

Už samotný názov nehovorí nič dobré, tu treba dávať veľký pozor, táto skupina nezvyčajných pozorovaní sa najčastejšie stáva adeptom na vyhodenie z dátovej vzorky. Samozrejme aj takýto krok musí byť poriadne podložený a reportovaný. Znova využime základné obrázky modelu funkcie plot().

  • Ako vplýva takého pozorovanie na model?
  • Prečo je “Utah” čudákom?

Všetko čo sme si prešli sa dá urobiť jedným ťahom.

autoplot(mo, which = 1:6, label.size = 3) + theme_minimal()

Štruktúra modelu

Na základe diagnostiky plného modelu sa štatistik rozhoduje čo ďalej.

Pokúste sa podľa vizualizácie a diagnostiky plného modelu určiť “správnu” štruktúru modelu a následne svoje rozhodnutie diagnostikujte.


Samostatná práca

Schopnosť detekcie chybnej štruktúri treba trénovať rovnako ako poriadnu obhliadku dát, preto použite dáta teengamb do ktorých fitnite plný regresný model s gamble ako odozvou. Overte:

  1. Variancia residuálov modelu
  2. Normalita residuálov modelu
  3. Nezvyčajné pozorovania
    • Pákove body
    • Outliere
    • Vplyvné pozorovania
  4. Ak je to z diagnostiky nutné, navrhnite zmeny štruktúri modelu a zopakujte diagnostiku.