Diagnostické nástroje a celá veda okolo prediktorov nám napovedajú o vhodnosti fitu a o tom, či náš model vhodne popisuje (sedí na) dáta. Čo urobíme, ak vizualizácia odhalí značné problémy.

Odpovedať na tieto otázky je ťažké. Teraz predpokladajme vhodnú štruktúru modelu, ale diagnostické nástroje stále napriek tomu vykazujú heteroskedastickú varianciu reziduálov. V takom prípade môžeme do modelu zakomponovať extra informáciu o variancii. \[var(\epsilon) = \sigma^2I\Rightarrow \sigma^2\Sigma\]

Aký má dopad heteroskedastická variancia reziduálov na signifikanciu (p-hodnotu) odhadu?

Pri nezvyčajných pozorovaniach je to už iné, niektoré vedia byť poriadne nebezpečné a odhad parametra môže byť výrazne vychýlený. Sú aj ukážkové prípady, kde ostránenie jedného bodu zmeni znamienka niekoľkých odhadov! Uvažujme situáciu, kde sa nevieme rozhodnúť, či bod je alebo nie je potrebné vyhodiť z dátovej vzorky. Niekedy je rozhodovanie veľmi ťažké a slúžia nám na to napríklad robustná regresia. Vyhadzovanie bodov z dátovej vzorky je veľmi nebezpečné, o čom nás už presvedčila minulosť, preto v tejto úlohe musíme byť vždy opatrný a preto aj robustnú regresiu budeme používať len v prípade potreby.

Čo môže zakryť využitie robustnej regresie?

Heteroskedastická variancia

Pre jednoduchosť použime dáta pipeline z knižnice faraway. Najprv urobte, čo je potrebné pred každým lineárnym modelom.

V našom jednoduchom prípade si môžeme vykresliť odozvu voči prediktoru pomocou ofarbenia skupín. Pozor: Prerušovaná čiara na obrázku nie je fit.

Na mieste sú otázky:

Teraz fitnite linearny regeresny model s Lab ako odozvou a Field ako prediktorom. Urobte diagnostiku modelu.

##              Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.967500   1.574787 -1.2494   0.2143
## Field        1.222968   0.041069 29.7781   <2e-16
## 
## n = 107, p = 2, Residual SE = 7.86476, R-Squared = 0.89