Postupne sme sa dostali na úroveň, kedy sa môžeme začať baviť o štrukrúre modelu. Diagnostika lineárneho modelu sa dá chápať aj ako súhrn nástrojov na preverenie “vhodnosti/kvality”.
Chybná štruktúra modelu môže nesprávne popisovať dáta a dávať vychýlené výsledky.
Na detailnejšie objasnenie toho čo môže chybná štruktúra spôsobit odporúčam prejsť si krátku podkapitolu 6.4 z knihy Linear models with R od J.J.Faraway.
Modelovanie sa vo všeobecnosti môže javiť ako rýdzo subjektívne. Nemusíte sa báť, nič také pravda nie je. Na začiatku sa štatistik (vy) orientuje na základe indícií z dát, neskôr predpokladmi samotného modelu a nakoniec vlastnými skúsenosťami, preto sa štatistiké modelovanie niekedy chápe aj ako remeslo.
Dáta ste sa už naučili prezerať, teraz poďme na ďalší krok. Celá diagnostika je založená na predpokladoch lineárneho modelu, keby neboli splnené, tak ani odhady parametrov by neboli správne. Predpokladáme model \[y=X\beta + \epsilon\] kde \(\epsilon \sim N(0,\sigma^2I)\).
Pozrite sa na model a pokuste sa odvodiť, aké predpoklady má vzhľadom na jeho jednoduchú štruktúru?
Na overovanie predpokladov bola navrhnutá celá rada testov, my sa im budeme snažiť vyhnúť a používať vhodné obrázky, pričom budeme trenovať “oko”.
Nie je fyzicky možné, aby sme za jedno cvičenie, alebo aj semester, prebrali všetky diagnostiké nástroje lineárneho modelu. Dôležité je, aby ste ovládali základné nástroje, z ktorých postupne vznikali sofistikovaniejšie “triky”.
Pre celistvejšie pochopenie diagnostiky začnime od začiatku a vezmime dáta sat
z knižnice faraway
. Ako prvé sa oboznámime s problémom a urobíme obhliadku dát. V tomto prípade bude naša odozva total SAT score, pričom math a verbal score nás zaujímať nebude.
## expend ratio salary takers
## Min. :3.656 Min. :13.80 Min. :25.99 Min. : 4.00
## 1st Qu.:4.882 1st Qu.:15.22 1st Qu.:30.98 1st Qu.: 9.00
## Median :5.768 Median :16.60 Median :33.29 Median :28.00
## Mean :5.905 Mean :16.86 Mean :34.83 Mean :35.24
## 3rd Qu.:6.434 3rd Qu.:17.57 3rd Qu.:38.55 3rd Qu.:63.00
## Max. :9.774 Max. :24.30 Max. :50.05 Max. :81.00
## total
## Min. : 844.0
## 1st Qu.: 897.2
## Median : 945.5
## Mean : 965.9
## 3rd Qu.:1032.0
## Max. :1107.0
Čo nám hovorí popisná štatistika a počiatočná vizualizácia?
Takýchto obrázkov si môžeme urobiť mnoho, aby sme lepšie pochopili ako vplývajú predikotry na SAT skóre. Teraz fitnite do dát model s total
ako odozvou, kde takers
, salary
, ratio
a expend
budú predikory. Skontrolujte a okomentujte základný výstup z modelu.
##
## Call:
## lm(formula = total ~ takers + salary + ratio + expend, data = satt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -90.531 -20.855 -1.746 15.979 66.571
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1045.9715 52.8698 19.784 < 2e-16 ***
## takers -2.9045 0.2313 -12.559 2.61e-16 ***
## salary 1.6379 2.3872 0.686 0.496
## ratio -3.6242 3.2154 -1.127 0.266
## expend 4.4626 10.5465 0.423 0.674
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32.7 on 45 degrees of freedom
## Multiple R-squared: 0.8246, Adjusted R-squared: 0.809
## F-statistic: 52.88 on 4 and 45 DF, p-value: < 2.2e-16
Po tom, čo ste fitli do dát model ako prvé overíme “okom” predpoklad kladený na varianciu residuálov. Z teorie lineárneho modelu vieme, že má byť konštantná. Na znázornenie použite funkciu plot(model,1)
na model.
Teraz uvažujme všeobecný prípad heteroskedastickej variancie, na aké hodnoty vo výstupe má vplyv?
Rovnako overte aj predpodklad normality residualov, použite napríklad funkciu qqPlot()
.
Nezvyčajné pozorovania môžu byť aj chyby meraní alebo chyba v zápise dát, v opačnom prípade nesú extra informáciu a poriadny štatistik na takého body upozornuje.
Prvý typ tzv. nezvyčajných pozorovaní, svoj názov si nezaslúžil len tak, viete mi povedať prečo?
Znázornite si hatvalues pomocou rovnomennej funkcie a použite funkciu halfnorm()
.
## Utah California Connecticut New Jersey New York Alaska
## 0.2921128 0.2821179 0.2254519 0.2220978 0.1915752 0.1803061
Na odhalenie pákových bodov sme použili hatvalues, vysvetlite prečo.
Najmenej škodné nezvyčajné pozorovanie
Už samotný názov nehovorí nič dobré, tu treba dávať veľký pozor, táto skupina nezvyčajných pozorovaní sa najčastejšie stáva adeptom na vyhodenie z dátovej vzorky. Samozrejme aj takýto krok musí byť poriadne podložený a reportovaný. Znova využime základné obrázky modelu funkcie plot()
.
Všetko čo sme si prešli sa dá urobiť jedným ťahom.
autoplot(mo, which = 1:6, label.size = 3) + theme_minimal()
Na základe diagnostiky plného modelu sa štatistik rozhoduje čo ďalej.
Pokúste sa podľa vizualizácie a diagnostiky plného modelu určiť “správnu” štruktúru modelu a následne svoje rozhodnutie diagnostikujte.
Schopnosť detekcie chybnej štruktúri treba trénovať rovnako ako poriadnu obhliadku dát, preto použite dáta teengamb
do ktorých fitnite plný regresný model s gamble
ako odozvou. Overte: