Postupne sme sa dostali na úroveň, kedy sa môžeme začať baviť o štrukrúre modelu. Diagnostika lineárneho modelu sa dá chápať aj ako súhrn nástrojov na preverenie “vhodnosti/kvality”.

Chybná štruktúra modelu môže nesprávne popisovať dáta a dávať vychýlené výsledky.

Na detailnejšie objasnenie toho čo môže chybná štruktúra spôsobit odporúčam prejsť si krátku podkapitolu 6.4 z knihy Linear models with R od J.J.Faraway.

Modelovanie sa vo všeobecnosti môže javiť ako rýdzo subjektívne. Nemusíte sa báť, nič také pravda nie je. Na začiatku sa štatistik (vy) orientuje na základe indícií z dát, neskôr predpokladmi samotného modelu a nakoniec vlastnými skúsenosťami, preto sa štatistiké modelovanie niekedy chápe aj ako remeslo.

Dáta ste sa už naučili prezerať, teraz poďme na ďalší krok. Celá diagnostika je založená na predpokladoch lineárneho modelu, keby neboli splnené, tak ani odhady parametrov by neboli správne. Predpokladáme model \[y=X\beta + \epsilon\] kde \(\epsilon \sim N(0,\sigma^2I)\).

Pozrite sa na model a pokuste sa odvodiť, aké predpoklady má vzhľadom na jeho jednoduchú štruktúru?

Na overovanie predpokladov bola navrhnutá celá rada testov, my sa im budeme snažiť vyhnúť a používať vhodné obrázky, pričom budeme trenovať “oko”.


Základná Diagnostika modelu

Nie je fyzicky možné, aby sme za jedno cvičenie, alebo aj semester, prebrali všetky diagnostiké nástroje lineárneho modelu. Dôležité je, aby ste ovládali základné nástroje, z ktorých postupne vznikali sofistikovaniejšie “triky”.

Pre celistvejšie pochopenie diagnostiky začnime od začiatku a vezmime dáta sat z knižnice faraway. Ako prvé sa oboznámime s problémom a urobíme obhliadku dát. V tomto prípade bude naša odozva total SAT score, pričom math a verbal score nás zaujímať nebude.

Vizualizácia a popisná štatistika

##      expend          ratio           salary          takers     
##  Min.   :3.656   Min.   :13.80   Min.   :25.99   Min.   : 4.00  
##  1st Qu.:4.882   1st Qu.:15.22   1st Qu.:30.98   1st Qu.: 9.00  
##  Median :5.768   Median :16.60   Median :33.29   Median :28.00  
##  Mean   :5.905   Mean   :16.86   Mean   :34.83   Mean   :35.24  
##  3rd Qu.:6.434   3rd Qu.:17.57   3rd Qu.:38.55   3rd Qu.:63.00  
##  Max.   :9.774   Max.   :24.30   Max.   :50.05   Max.   :81.00  
##      total       
##  Min.   : 844.0  
##  1st Qu.: 897.2  
##  Median : 945.5  
##  Mean   : 965.9  
##  3rd Qu.:1032.0  
##  Max.   :1107.0