Tento kurz je venovaný osvojeniu si základných praktických zručností lineárnej regresie plne mapujúci prednášky doktora Lafférsa. Ako je známe, samotná regresia sa pokladá za základ praktickej štatistiky využívanej po celom svete. Niektoré prednášky zahraničných profesorov dokonca označujú regresiu za nástroj na “všetko” a je to svojím spôsobom pravda. Jej princípy sa používajú v širokej škále štatistických nástrojov ako napríklad vypočítanie bankového klasifikátora na poskytovanie pôžičky žiadateľovi.
Slovo moderná v názve predmetu je opodstatnené vďaka prostrediu R (a RStudiu), ktoré sa dnes pokladá za jeden z najrýchlejšie rozvíjajúcich a najkompatibilnejších programovacích prostredí na Importovanie, úpravu, transformáciu, vizualiáciu a modelovanie dát. R slúži okrem klasického počítania (lepšej kalkulačky) a už spomenutých možnosti aj na exportovanie profesionálnych reportov. Okrem iného je tu možnosť zaobaliť vaše výsledky do interaktívnej online aplikácie.
Môžeme voľne rozdelovať na okruhy inšpirované (Faraway) a doplnené (Wickham, Grolemund).
BONUS na koniec kurzu si môžeme ukázať ako robiť R Markdown 1 report alebo Shiny 2 interaktívnu aplikáciu vašich analýz (mimo hodnotenia).
Na krátku ukážku si vezmeme Fuel economy data from 1999 and 2008 for 38 popular models of car z knižnice ggplot2
. Nás bude zaujímať ako vplýva zdvihový objem motora (v litroch) na dojazd (v mílach) populárnych modelov áut na jeden natankovaný galón paliva. V štatistickej hantírke sa pýtame aký má vplyv Predictor (zdvihový objem motora) na Response (dojazd).
Model | Engine displacement | Highway fuel economy | Class |
---|---|---|---|
grand cherokee 4wd | 4.7 | 19 | suv |
camry solara | 2.2 | 29 | compact |
camry | 2.4 | 31 | midsize |
grand cherokee 4wd | 6.1 | 14 | suv |
4runner 4wd | 4.0 | 20 | suv |
civic | 1.8 | 36 | subcompact |
a4 | 2.0 | 31 | compact |
civic | 1.8 | 36 | subcompact |
a4 quattro | 1.8 | 26 | compact |
gti | 2.0 | 29 | compact |
… |
Kurz je zostavený z jedenástich cvičení obsahujúci vyššie spomínané okruhy, teda každý s dĺžkou 120 minút. Na cvičenia sa odporúča chodiť pravidelne, prípadné nejasnosti sa potom dajú riešiť okamžite. Cvičenia a aj úlohy vždy nájdete na https://www.lukaslaffers.com/mar.
Po každom cvičení dostanete povinnú domácu úlohu obsahujúcu úlohy naväzujúce alebo priamo doplňujúce obsah cvičenia. Termíny odovzdania sú pevne stanovené na deň pred nasledujúcimi cvičeniami. Posunutie termínu odovzdania môže jednotlivec požiadať najneskôr 3 dni pred jeho vypršaním a to len vtedy, ak má dobrý dôvod (je na cvičiacom či vyhovie, všetko záleží na okolnostiach). Úlohu je možné konzultovať pred finálnym odovzdaním s cvičiacim, samozrejme je neprístupné odpisovať od spolužiaka. Neokomentovaný kód a používanie knižníc, ktorým nerozumiete sa nehodnotí.
Z každej domácej úlohy môžete získať 100b, plus na prípadné prilepšenie ešte bonusových 10b za extra časť. Teda to znamená, že za celý kurz môžete získať 11x100 bodov, ak teda nepočítame bonusové úlohy. Tieto body budú predstavovať riadny termín skúšky. Čo sa môže stať na konci kurzu?
Stupnica hodnotenia študenta je stanovená v Študijný poriadok FPV UMB podľa Čl. 16 Hodnotenie študijných výsledkov §2
J.J. Faraway, Linear models with R, Second Edition 2015
H. Wickham, ggplot2, Elegant Graphics for Data Analysis Second Edition 2016
H. Wickham, G. Grolemund, R for data science 2016
Ďalšie užitočné odkazy na články a videa najdete na https://www.lukaslaffers.com/mar
Táto stránka bola vytvorená v R Markdown↩
Príklad na Shiny aplikáciu https://samuell.shinyapps.io/NRSR2016/↩