V predchádzajúcich cvičeniach sme si vyskúšali podľa “oka” odhadnúť vplyv prediktorov na odozvu a následne zostaviť model na vysvetľovanie (popisovanie) zaujímavého javu. Okrem tohto sa regresné modely zostavujú hlavne za účelom predikcie. Voľne môžeme deliť zostavovanie na:

Ak zostavíme model na popisovanie, tak nebude dobrý na predikovanie a naopak. Prečo? Popisný model výborne sadne na trénovacie dáta, naopak model výlučne na predikciu je zostavovaný na nové dáta a je zpravidla aj jednoduchší (znižuje to pravdepodobnosť vychýlenia predpovede).

Teraz si ukážeme ako fungujú predikcie a ako veľmi im môžeme dôverovať. Nech \(x_0\) sú nové hodnoty parametrov a my chceme predikovať \(y_0\), čomu sa rovná \(\hat y_0\)?

Aký interval spoľahlivosti má budúca hodnota a budúca priemerná hodnota \(\hat y_0\)?


Predikovanie

Pokračujme s datasetom teengamb, naprv fitnite do dát plný regresný model z gamble ako odozvou. Využite odhady parametrov modelu a maticové operácie na predikciu gamblingu priemerného muža. Na získanie priemerného muža použite informáciu z dát. Dostanete:

##        [,1]
## [1,] 29.775

Teraz na rovnakú predpoveď použite funkciu predict() a nechajte si vypísať aj intervaly spoľahlivosti pre budúcu hodnotu a budúcu priemernu hodnotu.

##      fit       lwr      upr
## 1 29.775 -16.82649 76.37649
##      fit      lwr      upr
## 1 29.775 21.12132 38.42868

Predikovanie extrému

Zopakujte úlohu vyššie, ale pre maximalne hodnoty, teda “extrémneho muža” a porovnajte konfidenčné intervaly pre budúcu priemernú hodnotu. Ktorý je širší, a vysvetlite prečo?

##        fit      lwr    upr
## 1 71.30794 17.06588 125.55
##        fit      lwr      upr
## 1 71.30794 42.23237 100.3835

Kauzalita a testovanie

Pokračujme v práci s dátami teengamb. Našou úlohou bude overiť hypozézu (zaujímavú otázku) “O rozdielu pohlaví pri gamblovaní”. Táto veľmi jednoduchá otázka nie je taká jednoznačná, ako sa zdá. Na začiatok fitnite regresny model s gamble ako odozvou a income a sex ako prediktormmi. Dá sa hypotéza overiť z výstupu summary()?

## 
## Call:
## lm(formula = gamble ~ sex + income, data = teengamb)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.757 -11.649   0.844   8.659 100.243 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    4.041      6.394   0.632  0.53070    
## sex          -21.634      6.809  -3.177  0.00272 ** 
## income         5.172      0.951   5.438 2.24e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22.75 on 44 degrees of freedom
## Multiple R-squared:  0.5014, Adjusted R-squared:  0.4787 
## F-statistic: 22.12 on 2 and 44 DF,  p-value: 2.243e-07

Takéto testovanie niekedy (väčšinou) nie je postačujúce, lebo neporovnávame jednotlivcov s rovnakými vlastnosťami, ale rôznych. Napríklad, ako ste si určite všimli,na obrázku medzi mužmi a ženami je veľký nepomer. Muži majú väčšiu varianciu pri vyšších prijmoch a podobne.

Matching

Použite fungkciu GenMatch z knižniceMatching na vyhľadanie podobných párov v pohlaví. Koľko zhodných párov nám našlo a koľko pripadov nám to vynechalo?

##       [,1] [,2]
##  [1,]    1   34
##  [2,]    2   22
##  [3,]    3   41
##  [4,]    4   32
##  [5,]    5   34
##  [6,]    6   23
##  [7,]    7   27
##  [8,]    8   25
##  [9,]    9   41
## [10,]   11   43
## [11,]   14   41
## [12,]   15   43
## [13,]   16   46
## [14,]   18   24

Teraz nakreslite obrázok, kde budú len tieto páry. Je vidieť rozdiel?

Spočítajte rozdiel v gamblovaní medzi týmito pármi a otestujte ho za pomoci t.test(). Je rozdiel signifikantný? Aký je rozdiel medzi týmto testom a tým z modelu?

## 
##  One Sample t-test
## 
## data:  pdiff
## t = -1.8032, df = 13, p-value = 0.09457
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -42.305149   3.812292
## sample estimates:
## mean of x 
## -19.24643

Nakoniec sformulujte záver zo všetkých vaších výstupov.


Samostatná práca

Už ste si určite všimli, že nie vždy budete pracovať s netransformovanými dátami. Fitnite model s transformovanou odozvou sqrt(gamble) a znova predikujte na základe transformovaného modelu gambling priemerneho muža.

Na rovnakom modeli predikujte ženu s hodnotami status=20,income=1,verbal=10 zaroveň okomentujte dôveryhodnosť takejto predikcie.