Postupne sme sa dostali na úroveň, kedy sa môžeme začať baviť o štrukrúre modelu. Diagnostika lineárneho modelu sa dá chápať aj ako súhrn nástrojov na preverenie “vhodnosti/kvality”.

Chybná štruktúra modelu môže nesprávne popisovať dáta a dávať vychýlené výsledky.

Na detailnejšie objasnenie toho čo môže chybná štruktúra spôsobit odporúčam prejsť si krátku podkapitolu 6.4 z knihy Linear models with R od J.J.Faraway.

Modelovanie sa vo všeobecnosti môže javiť ako rýdzo subjektívne. Nemusíte sa báť, nič také pravda nie je. Na začiatku sa štatistik (vy) orientuje na základe indícií z dát, neskôr predpokladmi samotného modelu a nakoniec vlastnými skúsenosťami, preto sa štatistiké modelovanie niekedy chápe aj ako remeslo.

Dáta ste sa už naučili prezerať, teraz poďme na ďalší krok. Celá diagnostika je založená na predpokladoch lineárneho modelu, keby neboli splnené, tak ani odhady parametrov by neboli správne. Predpokladáme model \[y=X\beta + \epsilon\] kde \(\epsilon \sim N(0,\sigma^2I)\).

Pozrite sa na model a pokuste sa odvodiť, aké predpoklady má vzhľadom na jeho jednoduchú štruktúru?

Na overovanie predpokladov bola navrhnutá celá rada testov, my sa im budeme snažiť vyhnúť a používať vhodné obrázky, pričom budeme trenovať “oko”.


Základná Diagnostika modelu

Nie je fyzicky možné, aby sme za jedno cvičenie, alebo aj semester, prebrali všetky diagnostiké nástroje lineárneho modelu. Dôležité je, aby ste ovládali základné nástroje, z ktorých postupne vznikali sofistikovaniejšie “triky”.

Pre celistvejšie pochopenie diagnostiky začnime od začiatku a vezmime dáta sat z knižnice faraway. Ako prvé sa oboznámime s problémom a urobíme obhliadku dát. V tomto prípade bude naša odozva total SAT score, pričom math a verbal score nás zaujímať nebude.

Vizualizácia a popisná štatistika

##   expend     ratio      salary     takers   
## Min.  :3.656  Min.  :13.80  Min.  :25.99  Min.  : 4.00 
## 1st Qu.:4.882  1st Qu.:15.22  1st Qu.:30.98  1st Qu.: 9.00 
## Median :5.768  Median :16.60  Median :33.29  Median :28.00 
## Mean  :5.905  Mean  :16.86  Mean  :34.83  Mean  :35.24 
## 3rd Qu.:6.434  3rd Qu.:17.57  3rd Qu.:38.55  3rd Qu.:63.00 
## Max.  :9.774  Max.  :24.30  Max.  :50.05  Max.  :81.00 
##   total    
## Min.  : 844.0 
## 1st Qu.: 897.2 
## Median : 945.5 
## Mean  : 965.9 
## 3rd Qu.:1032.0 
## Max.  :1107.0