Postupne sme sa dostali na úroveň, kedy sa môžeme začať baviť o štrukrúre modelu. Diagnostika lineárneho modelu sa dá chápať aj ako súhrn nástrojov na preverenie “vhodnosti/kvality”.
Chybná štruktúra modelu môže nesprávne popisovať dáta a dávať vychýlené výsledky.
Na detailnejšie objasnenie toho čo môže chybná štruktúra spôsobit odporúčam prejsť si krátku podkapitolu 6.4 z knihy Linear models with R od J.J.Faraway.
Modelovanie sa vo všeobecnosti môže javiť ako rýdzo subjektívne. Nemusíte sa báť, nič také pravda nie je. Na začiatku sa štatistik (vy) orientuje na základe indícií z dát, neskôr predpokladmi samotného modelu a nakoniec vlastnými skúsenosťami, preto sa štatistiké modelovanie niekedy chápe aj ako remeslo.
Dáta ste sa už naučili prezerať, teraz poďme na ďalší krok. Celá diagnostika je založená na predpokladoch lineárneho modelu, keby neboli splnené, tak ani odhady parametrov by neboli správne. Predpokladáme model \[y=X\beta + \epsilon\] kde \(\epsilon \sim N(0,\sigma^2I)\).
Pozrite sa na model a pokuste sa odvodiť, aké predpoklady má vzhľadom na jeho jednoduchú štruktúru?
Na overovanie predpokladov bola navrhnutá celá rada testov, my sa im budeme snažiť vyhnúť a používať vhodné obrázky, pričom budeme trenovať “oko”.
Nie je fyzicky možné, aby sme za jedno cvičenie, alebo aj semester, prebrali všetky diagnostiké nástroje lineárneho modelu. Dôležité je, aby ste ovládali základné nástroje, z ktorých postupne vznikali sofistikovaniejšie “triky”.
Pre celistvejšie pochopenie diagnostiky začnime od začiatku a vezmime dáta sat z knižnice faraway. Ako prvé sa oboznámime s problémom a urobíme obhliadku dát. V tomto prípade bude naša odozva total SAT score, pričom math a verbal score nás zaujímať nebude.
##      expend          ratio           salary          takers     
##  Min.   :3.656   Min.   :13.80   Min.   :25.99   Min.   : 4.00  
##  1st Qu.:4.882   1st Qu.:15.22   1st Qu.:30.98   1st Qu.: 9.00  
##  Median :5.768   Median :16.60   Median :33.29   Median :28.00  
##  Mean   :5.905   Mean   :16.86   Mean   :34.83   Mean   :35.24  
##  3rd Qu.:6.434   3rd Qu.:17.57   3rd Qu.:38.55   3rd Qu.:63.00  
##  Max.   :9.774   Max.   :24.30   Max.   :50.05   Max.   :81.00  
##      total       
##  Min.   : 844.0  
##  1st Qu.: 897.2  
##  Median : 945.5  
##  Mean   : 965.9  
##  3rd Qu.:1032.0  
##  Max.   :1107.0
Čo nám hovorí popisná štatistika a počiatočná vizualizácia?
Takýchto obrázkov si môžeme urobiť mnoho, aby sme lepšie pochopili ako vplývajú predikotry na SAT skóre. Teraz fitnite do dát model s total ako odozvou, kde takers, salary, ratioa expend budú predikory. Skontrolujte a okomentujte základný výstup z modelu.
## 
## Call:
## lm(formula = total ~ takers + salary + ratio + expend, data = satt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -90.531 -20.855  -1.746  15.979  66.571 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1045.9715    52.8698  19.784  < 2e-16 ***
## takers        -2.9045     0.2313 -12.559 2.61e-16 ***
## salary         1.6379     2.3872   0.686    0.496    
## ratio         -3.6242     3.2154  -1.127    0.266    
## expend         4.4626    10.5465   0.423    0.674    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 32.7 on 45 degrees of freedom
## Multiple R-squared:  0.8246, Adjusted R-squared:  0.809 
## F-statistic: 52.88 on 4 and 45 DF,  p-value: < 2.2e-16
Po tom, čo ste fitli do dát model ako prvé overíme “okom” predpoklad kladený na varianciu residuálov. Z teorie lineárneho modelu vieme, že má byť konštantná. Na znázornenie použite funkciu plot(model,1) na model.
Teraz uvažujme všeobecný prípad heteroskedastickej variancie, na aké hodnoty vo výstupe má vplyv?
Rovnako overte aj predpodklad normality residualov, použite napríklad funkciu qqPlot().
Nezvyčajné pozorovania môžu byť aj chyby meraní alebo chyba v zápise dát, v opačnom prípade nesú extra informáciu a poriadny štatistik na takého body upozornuje.
Prvý typ tzv. nezvyčajných pozorovaní, svoj názov si nezaslúžil len tak, viete mi povedať prečo?
Znázornite si hatvalues pomocou rovnomennej funkcie a použite funkciu halfnorm().
##        Utah  California Connecticut  New Jersey    New York      Alaska 
##   0.2921128   0.2821179   0.2254519   0.2220978   0.1915752   0.1803061
Na odhalenie pákových bodov sme použili hatvalues, vysvetlite prečo.
Najmenej škodné nezvyčajné pozorovanie
Už samotný názov nehovorí nič dobré, tu treba dávať veľký pozor, táto skupina nezvyčajných pozorovaní sa najčastejšie stáva adeptom na vyhodenie z dátovej vzorky. Samozrejme aj takýto krok musí byť poriadne podložený a reportovaný. Znova využime základné obrázky modelu funkcie plot().
Všetko čo sme si prešli sa dá urobiť jedným ťahom.
autoplot(mo, which = 1:6, label.size = 3) + theme_minimal()
Na základe diagnostiky plného modelu sa štatistik rozhoduje čo ďalej.
Pokúste sa podľa vizualizácie a diagnostiky plného modelu určiť “správnu” štruktúru modelu a následne svoje rozhodnutie diagnostikujte.
Schopnosť detekcie chybnej štruktúri treba trénovať rovnako ako poriadnu obhliadku dát, preto použite dáta teengamb do ktorých fitnite plný regresný model s gamble ako odozvou. Overte: