Odhadovanie parametrov regresného modelu sa môže zdať ako jednoznačná a jednoduchá úloha. Zdanie budí hlavne “krásne” riešenie metódy najmenších štvorcov zvané aj Normal equations, ktoré je zhodné s riešením metódy maximalnej vierohodnosti. Najprv pripomeňme model \[y=X\beta + \epsilon\] ktorého odhad parametrov je \[\hat\beta = (X'X)^{-1}X'y.\]

Všimnite si, vo výsledku je istá numerická nepríjemnosť a to inverzia matice \(X'X\). Presne kvôli tomuto používa každý štatistický software na odhady regresných parametrov už pri obyčajnom linearnom regresnom modeli rôzne numerické metódy.

Aké rozdelenie pravdepodobnosti má \(\hat\beta\)?


Jednoduchý gausovský regresný model

Vezmime dataset mpg a pre toto cvičenie berme ako odozvu (vysvetlovanú premennú) hwy a prediktor (vysvetľujúcu premennú) displ.

# zavoláme knižnice
library(faraway)
library(car)
library(ggplot2)

# načítame dáta
data(mpg)

Odhad parametrov

Spočítajte pomocou metódy najemnších štvorcov odhady parametrov jednoduchého gausovského regresného modelu \[hwy = a + b.displ+ \epsilon\].

##                      estimate
## intercept           35.697651
## engine displacement -3.530589

Odhad variancie

Pomocou rovnakých operácií spočítajte \(\hat\sigma^2\).

##          [,1]
## [1,] 14.58901

Overenie normality

Overte normalitu reziduálov (odhad \(\hat\epsilon\)) pomocou qq plotu a krivky hustoty.

Použitie implementovanej funkcie

Skontrolujte vaše výsledky s funkciou lm(), výstup z funkcie uložte do osobitnej premennej zvanej “objekt” a na tento objekt zavolajte funkciu summary(). Pokúste sa interpretovať výstup.

## 
## Call:
## lm(formula = hwy ~ displ, data = mpg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.1039 -2.1646 -0.2242  2.0589 15.0105 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  35.6977     0.7204   49.55   <2e-16 ***
## displ        -3.5306     0.1945  -18.15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared:  0.5868, Adjusted R-squared:  0.585 
## F-statistic: 329.5 on 1 and 232 DF,  p-value: < 2.2e-16

Zakreslenie

Zakreslite regresnú priamku do dát. Napríklad môžete pokračovať s obrázkom z domácej úlohy a vkresliť do neho regresnú priamku pomocou funkcie geom_abline().

Záver

Interpretujte obrázok.


Samostatná práca

Pokúsme sa dať dohromady znalosti z predchádzajúcich cvičení a fitnime model do dát cheddar. To vyžaduje nasledovné kroky:

  1. Urobte “hrubú” obhliadku dát (oboznámenie sa s problematikou, popisná štatistika a jednoduchá vizualizácia).
  2. Fitnite do dát plný regresný model s taste ako odozvou, pričom použite funkciu lm().
  3. Spočítajte mocninu korelácie medzi fitom \(\hat y\) a odozvou \(y\), nájdite tento údaj v summary() a vysvetlite ho.
  4. Fitnite rovnaký model ako v 2., ale vynechajte intercept. Čo znamená hodnota \(R^2\)?.