Ex03 Inference

Vždy sa budete stretávať s ľudmi “rozumejúcimi” štatistike, práve títo poznajú akurát pojmy signifikancia a p-hodnota, ale vo veľkej väčšine nevedia, čo to naozaj znamená. Žiaľ, oblasť štatistiky zvaná Inferencia neponúka tak jasné odpovede, ako si to samozvaný odborníci predstavujú. Presne kvôli tomuto laická verejnosť štatistikom skôr nedôveruje alebo sa na nich pozerá cez prsty.

V prvom rade si treba uvedomiť, že základný pilier inferencie tvoria veľmi silné predpoklady. V cvičeniach na vizualizáciu a odhady ste sa sami svojím okom presvedčili, aké náročné je vyhovieť predpokladu normality už pri jednoduchom gausovskom regresnom modeli. Teraz si predstavte model obsahujúci 20 parametrov pri rovnakých predpokladoch. Vyhodením jedného parametra môžete, ale aj nemusíte narušiť celkový význam parametrov modelu. Preto nesignifikantný odhad parametra nie vždy znamená “vyhoď ma”!

Aký konfidenčný interval má \(\hat\beta\)?

Teraz o niečo náročnejšia otázka. Môžem urobiť test normality reziduálov a potom na základe toho testovať odhad parametra?

Konfidenčný interval odhadu parametra

Vráťme sa k datasetu mpg, spočítajte “okom” na základe výstupu z lm() konfidenčný interval odhadu parametra displ.

## 
## Call:
## lm(formula = hwy ~ displ, data = mpg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.1039 -2.1646 -0.2242  2.0589 15.0105 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  35.6977     0.7204   49.55   <2e-16 ***
## displ        -3.5306     0.1945  -18.15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared:  0.5868, Adjusted R-squared:  0.585 
## F-statistic: 329.5 on 1 and 232 DF,  p-value: < 2.2e-16

Štatistická signifikancia parametrov regresného modelu

Použime dataset cheddar z konca predošlých cvičení s odozvou taste.

# zavoláme knižnice
library(car)
library(faraway)

# načítame dáta
data(cheddar)

V skratke sformulujte problematiku a “hrubú” obhliadku dát. Inými slovami, postupom prezentovaným v predchádzajúcich cvičeniach treba zodpovedať minimálne nasledujúce otázky:

Čo nás zaujíma a aká je odozva (vysvetľovaná premenná)?
Aké a koľko máme prediktorov (vysvetlujúce premenné)?
V akom sú vzájomnom vzťahu?

##      taste           Acetic           H2S             Lactic     
##  Min.   : 0.70   Min.   :4.477   Min.   : 2.996   Min.   :0.860  
##  1st Qu.:13.55   1st Qu.:5.237   1st Qu.: 3.978   1st Qu.:1.250  
##  Median :20.95   Median :5.425   Median : 5.329   Median :1.450  
##  Mean   :24.53   Mean   :5.498   Mean   : 5.942   Mean   :1.442  
##  3rd Qu.:36.70   3rd Qu.:5.883   3rd Qu.: 7.575   3rd Qu.:1.667  
##  Max.   :57.20   Max.   :6.458   Max.   :10.199   Max.   :2.010

Môžeme si pomôcť aj korelačnou maticou.

cor(cheddar)

##            taste    Acetic       H2S    Lactic
## taste  1.0000000 0.5495393 0.7557523 0.7042362
## Acetic 0.5495393 1.0000000 0.6179559 0.6037826
## H2S    0.7557523 0.6179559 1.0000000 0.6448123
## Lactic 0.7042362 0.6037826 0.6448123 1.0000000

Štatistická významnosť prediktorov modelu

Fitnite do dát plný regresný model a na zákade výstupu z funkcie lm() nájdite nesignifikantné prediktory. Pokúste sa vysvetliť prečo.

## 
## Call:
## lm(formula = taste ~ Acetic + H2S + Lactic, data = cheddar)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.390  -6.612  -1.009   4.908  25.449 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -28.8768    19.7354  -1.463  0.15540   
## Acetic        0.3277     4.4598   0.073  0.94198   
## H2S           3.9118     1.2484   3.133  0.00425 **
## Lactic       19.6705     8.6291   2.280  0.03108 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.13 on 26 degrees of freedom
## Multiple R-squared:  0.6518, Adjusted R-squared:  0.6116 
## F-statistic: 16.22 on 3 and 26 DF,  p-value: 3.81e-06

Štatistická významnosť netransformovaných prediktorov modelu

Na začiatku sme sa dočítali, že Acetic and H2S boli zlogaritmované. Fitnite model, kde všetky tri regresory sú v originálnom merítku. Zmenilo sa niečo z hľadiska signifikancie?

## 
## Call:
## lm(formula = taste ~ exp(Acetic) + exp(H2S) + Lactic, data = cheddar)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.209  -7.266  -1.651   7.385  26.335 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -1.897e+01  1.127e+01  -1.684   0.1042  
## exp(Acetic)  1.891e-02  1.562e-02   1.210   0.2371  
## exp(H2S)     7.668e-04  4.188e-04   1.831   0.0786 .
## Lactic       2.501e+01  9.062e+00   2.760   0.0105 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.19 on 26 degrees of freedom
## Multiple R-squared:  0.5754, Adjusted R-squared:  0.5264 
## F-statistic: 11.75 on 3 and 26 DF,  p-value: 4.746e-05

Môžeme tieto dva modely porovnať na základe F-testu? Vysvetlite. Ktorý z týchto modelov lepšie fituje (popisuje) dáta? Vysvetlite svoje dôvody.

Vraťme sa k prvému modelu s transformovanými prediktormi. Ak stúpne hodnota parametra H2S o 0.01, akú zmenu taste môžeme očakávať? Môžete si pomôcť aj vykreslením obrázka.

Samostatná práca

Vezmime dataset punting a začnime od začiatku:

Urobte “hrubú” obhliadku dát (už viete, čo tento krok obnáša).
Fitnite do dát model s RStr, LStr, RFlex, LFlex ako prediktormi. Ktoré prediktory sú signifikantné?
Použite F-test na to, aby ste zistili, ktorý z týchto štyroch prediktorov alebo skupiny vplýva na odozvu.
Vezmite model z 2. a otestujte, či RStr a LStr majú rovnaký efekt.
Vykreslite 95% “konfidenčný región” pre Beta_RStr a Beta_lStr vysvetlite ako test z 4. súvisí s týmto obrázkom.
Zopakujte to isté ako v 4. a 5., ale pre odhady RFlex a LFlex.
Na základe zistení sa pokúste sformulovať vplyv prediktorov na odozvu alebo inými slovami, interpretujte model vo všeobecnosti.