V predchádzajúcich cvičeniach sme si vyskúšali podľa “oka” odhadnúť vplyv prediktorov na odozvu a následne zostaviť model na vysvetľovanie (popisovanie) zaujímavého javu. Okrem tohto sa regresné modely zostavujú hlavne za účelom predikcie. Voľne môžeme deliť zostavovanie na:
Ak zostavíme model na popisovanie, tak nebude dobrý na predikovanie a naopak. Prečo? Popisný model výborne sadne na trénovacie dáta, naopak model výlučne na predikciu je zostavovaný na nové dáta a je zpravidla aj jednoduchší (znižuje to pravdepodobnosť vychýlenia predpovede).
Teraz si ukážeme ako fungujú predikcie a ako veľmi im môžeme dôverovať. Nech \(x_0\) sú nové hodnoty parametrov a my chceme predikovať \(y_0\), čomu sa rovná \(\hat y_0\)?
Aký interval spoľahlivosti má budúca hodnota a budúca priemerná hodnota \(\hat y_0\)?
Pokračujme s datasetom teengamb
, naprv fitnite do dát plný regresný model z gamble
ako odozvou. Využite odhady parametrov modelu a maticové operácie na predikciu gamblingu priemerného muža. Na získanie priemerného muža použite informáciu z dát. Dostanete:
## [,1]
## [1,] 29.775
Teraz na rovnakú predpoveď použite funkciu predict()
a nechajte si vypísať aj intervaly spoľahlivosti pre budúcu hodnotu a budúcu priemernu hodnotu.
## fit lwr upr
## 1 29.775 -16.82649 76.37649
## fit lwr upr
## 1 29.775 21.12132 38.42868
Zopakujte úlohu vyššie, ale pre maximalne hodnoty, teda “extrémneho muža” a porovnajte konfidenčné intervaly pre budúcu priemernú hodnotu. Ktorý je širší, a vysvetlite prečo?
## fit lwr upr
## 1 71.30794 17.06588 125.55
## fit lwr upr
## 1 71.30794 42.23237 100.3835
Pokračujme v práci s dátami teengamb
. Našou úlohou bude overiť hypozézu (zaujímavú otázku) “O rozdielu pohlaví pri gamblovaní”. Táto veľmi jednoduchá otázka nie je taká jednoznačná, ako sa zdá. Na začiatok fitnite regresny model s gamble
ako odozvou a income
a sex
ako prediktormmi. Dá sa hypotéza overiť z výstupu summary()
?
##
## Call:
## lm(formula = gamble ~ sex + income, data = teengamb)
##
## Residuals:
## Min 1Q Median 3Q Max
## -49.757 -11.649 0.844 8.659 100.243
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.041 6.394 0.632 0.53070
## sex -21.634 6.809 -3.177 0.00272 **
## income 5.172 0.951 5.438 2.24e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.75 on 44 degrees of freedom
## Multiple R-squared: 0.5014, Adjusted R-squared: 0.4787
## F-statistic: 22.12 on 2 and 44 DF, p-value: 2.243e-07
Takéto testovanie niekedy (väčšinou) nie je postačujúce, lebo neporovnávame jednotlivcov s rovnakými vlastnosťami, ale rôznych. Napríklad, ako ste si určite všimli,na obrázku medzi mužmi a ženami je veľký nepomer. Muži majú väčšiu varianciu pri vyšších prijmoch a podobne.
Použite fungkciu GenMatch
z knižniceMatching
na vyhľadanie podobných párov v pohlaví. Koľko zhodných párov nám našlo a koľko pripadov nám to vynechalo?
## [,1] [,2]
## [1,] 1 34
## [2,] 2 22
## [3,] 3 41
## [4,] 4 32
## [5,] 5 34
## [6,] 6 23
## [7,] 7 27
## [8,] 8 25
## [9,] 9 41
## [10,] 11 43
## [11,] 14 41
## [12,] 15 43
## [13,] 16 46
## [14,] 18 24
Teraz nakreslite obrázok, kde budú len tieto páry. Je vidieť rozdiel?
Spočítajte rozdiel v gamblovaní medzi týmito pármi a otestujte ho za pomoci t.test()
. Je rozdiel signifikantný? Aký je rozdiel medzi týmto testom a tým z modelu?
##
## One Sample t-test
##
## data: pdiff
## t = -1.8032, df = 13, p-value = 0.09457
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -42.305149 3.812292
## sample estimates:
## mean of x
## -19.24643
Nakoniec sformulujte záver zo všetkých vaších výstupov.
Už ste si určite všimli, že nie vždy budete pracovať s netransformovanými dátami. Fitnite model s transformovanou odozvou sqrt(gamble)
a znova predikujte na základe transformovaného modelu gambling priemerneho muža.
Na rovnakom modeli predikujte ženu s hodnotami status=20,income=1,verbal=10
zaroveň okomentujte dôveryhodnosť takejto predikcie.