Vždy sa budete stretávať s ľudmi “rozumejúcimi” štatistike, práve títo poznajú akurát pojmy signifikancia a p-hodnota, ale vo veľkej väčšine nevedia, čo to naozaj znamená. Žiaľ, oblasť štatistiky zvaná Inferencia neponúka tak jasné odpovede, ako si to samozvaný odborníci predstavujú. Presne kvôli tomuto laická verejnosť štatistikom skôr nedôveruje alebo sa na nich pozerá cez prsty.
V prvom rade si treba uvedomiť, že základný pilier inferencie tvoria veľmi silné predpoklady. V cvičeniach na vizualizáciu a odhady ste sa sami svojím okom presvedčili, aké náročné je vyhovieť predpokladu normality už pri jednoduchom gausovskom regresnom modeli. Teraz si predstavte model obsahujúci 20 parametrov pri rovnakých predpokladoch. Vyhodením jedného parametra môžete, ale aj nemusíte narušiť celkový význam parametrov modelu. Preto nesignifikantný odhad parametra nie vždy znamená “vyhoď ma”!
Aký konfidenčný interval má \(\hat\beta\)?
Teraz o niečo náročnejšia otázka. Môžem urobiť test normality reziduálov a potom na základe toho testovať odhad parametra?
Vráťme sa k datasetu mpg
, spočítajte “okom” na základe výstupu z lm()
konfidenčný interval odhadu parametra displ
.
##
## Call:
## lm(formula = hwy ~ displ, data = mpg)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1039 -2.1646 -0.2242 2.0589 15.0105
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 35.6977 0.7204 49.55 <2e-16 ***
## displ -3.5306 0.1945 -18.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared: 0.5868, Adjusted R-squared: 0.585
## F-statistic: 329.5 on 1 and 232 DF, p-value: < 2.2e-16
Použime dataset cheddar
z konca predošlých cvičení s odozvou taste
.
# zavoláme knižnice
library(car)
library(faraway)
# načítame dáta
data(cheddar)
V skratke sformulujte problematiku a “hrubú” obhliadku dát. Inými slovami, postupom prezentovaným v predchádzajúcich cvičeniach treba zodpovedať minimálne nasledujúce otázky:
## taste Acetic H2S Lactic
## Min. : 0.70 Min. :4.477 Min. : 2.996 Min. :0.860
## 1st Qu.:13.55 1st Qu.:5.237 1st Qu.: 3.978 1st Qu.:1.250
## Median :20.95 Median :5.425 Median : 5.329 Median :1.450
## Mean :24.53 Mean :5.498 Mean : 5.942 Mean :1.442
## 3rd Qu.:36.70 3rd Qu.:5.883 3rd Qu.: 7.575 3rd Qu.:1.667
## Max. :57.20 Max. :6.458 Max. :10.199 Max. :2.010
Môžeme si pomôcť aj korelačnou maticou.
cor(cheddar)
## taste Acetic H2S Lactic
## taste 1.0000000 0.5495393 0.7557523 0.7042362
## Acetic 0.5495393 1.0000000 0.6179559 0.6037826
## H2S 0.7557523 0.6179559 1.0000000 0.6448123
## Lactic 0.7042362 0.6037826 0.6448123 1.0000000
Fitnite do dát plný regresný model a na zákade výstupu z funkcie lm()
nájdite nesignifikantné prediktory. Pokúste sa vysvetliť prečo.
##
## Call:
## lm(formula = taste ~ Acetic + H2S + Lactic, data = cheddar)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.390 -6.612 -1.009 4.908 25.449
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -28.8768 19.7354 -1.463 0.15540
## Acetic 0.3277 4.4598 0.073 0.94198
## H2S 3.9118 1.2484 3.133 0.00425 **
## Lactic 19.6705 8.6291 2.280 0.03108 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.13 on 26 degrees of freedom
## Multiple R-squared: 0.6518, Adjusted R-squared: 0.6116
## F-statistic: 16.22 on 3 and 26 DF, p-value: 3.81e-06
Na začiatku sme sa dočítali, že Acetic
and H2S
boli zlogaritmované. Fitnite model, kde všetky tri regresory sú v originálnom merítku. Zmenilo sa niečo z hľadiska signifikancie?
##
## Call:
## lm(formula = taste ~ exp(Acetic) + exp(H2S) + Lactic, data = cheddar)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.209 -7.266 -1.651 7.385 26.335
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.897e+01 1.127e+01 -1.684 0.1042
## exp(Acetic) 1.891e-02 1.562e-02 1.210 0.2371
## exp(H2S) 7.668e-04 4.188e-04 1.831 0.0786 .
## Lactic 2.501e+01 9.062e+00 2.760 0.0105 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.19 on 26 degrees of freedom
## Multiple R-squared: 0.5754, Adjusted R-squared: 0.5264
## F-statistic: 11.75 on 3 and 26 DF, p-value: 4.746e-05
Môžeme tieto dva modely porovnať na základe F-testu? Vysvetlite. Ktorý z týchto modelov lepšie fituje (popisuje) dáta? Vysvetlite svoje dôvody.
Vraťme sa k prvému modelu s transformovanými prediktormi. Ak stúpne hodnota parametra H2S
o 0.01, akú zmenu taste
môžeme očakávať? Môžete si pomôcť aj vykreslením obrázka.
Vezmime dataset punting
a začnime od začiatku:
RStr
, LStr
, RFlex
, LFlex
ako prediktormi. Ktoré prediktory sú signifikantné?RStr
a LStr
majú rovnaký efekt.Beta_RStr
a Beta_lStr
vysvetlite ako test z 4. súvisí s týmto obrázkom.RFlex
a LFlex
.