Odhadovanie parametrov regresného modelu sa môže zdať ako jednoznačná a jednoduchá úloha. Zdanie budí hlavne “krásne” riešenie metódy najmenších štvorcov zvané aj Normal equations, ktoré je zhodné s riešením metódy maximalnej vierohodnosti. Najprv pripomeňme model \[y=X\beta + \epsilon\] ktorého odhad parametrov je \[\hat\beta = (X'X)^{-1}X'y.\]
Všimnite si, vo výsledku je istá numerická nepríjemnosť a to inverzia matice \(X'X\). Presne kvôli tomuto používa každý štatistický software na odhady regresných parametrov už pri obyčajnom linearnom regresnom modeli rôzne numerické metódy.
Aké rozdelenie pravdepodobnosti má \(\hat\beta\)?
Vezmime dataset mpg
a pre toto cvičenie berme ako odozvu (vysvetlovanú premennú) hwy
a prediktor (vysvetľujúcu premennú) displ
.
# zavoláme knižnice
library(faraway)
library(car)
library(ggplot2)
# načítame dáta
data(mpg)
Spočítajte pomocou metódy najemnších štvorcov odhady parametrov jednoduchého gausovského regresného modelu \[hwy = a + b.displ+ \epsilon\].
## estimate
## intercept 35.697651
## engine displacement -3.530589
Pomocou rovnakých operácií spočítajte \(\hat\sigma^2\).
## [,1]
## [1,] 14.58901
Overte normalitu reziduálov (odhad \(\hat\epsilon\)) pomocou qq plotu a krivky hustoty.
Skontrolujte vaše výsledky s funkciou lm()
, výstup z funkcie uložte do osobitnej premennej zvanej “objekt” a na tento objekt zavolajte funkciu summary()
. Pokúste sa interpretovať výstup.
##
## Call:
## lm(formula = hwy ~ displ, data = mpg)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1039 -2.1646 -0.2242 2.0589 15.0105
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 35.6977 0.7204 49.55 <2e-16 ***
## displ -3.5306 0.1945 -18.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared: 0.5868, Adjusted R-squared: 0.585
## F-statistic: 329.5 on 1 and 232 DF, p-value: < 2.2e-16
Zakreslite regresnú priamku do dát. Napríklad môžete pokračovať s obrázkom z domácej úlohy a vkresliť do neho regresnú priamku pomocou funkcie geom_abline()
.
Interpretujte obrázok.
Pokúsme sa dať dohromady znalosti z predchádzajúcich cvičení a fitnime model do dát cheddar
. To vyžaduje nasledovné kroky:
taste
ako odozvou, pričom použite funkciu lm()
.summary()
a vysvetlite ho.