class: center, middle, inverse, title-slide # Wiederholung ### Statistik mit R
The R Bootcamp
### Mai 2020 --- layout: true <div class="my-footer"> <span style="text-align:center"> <span> <img src="https://raw.githubusercontent.com/therbootcamp/therbootcamp.github.io/master/_sessions/_image/by-sa.png" height=14 style="vertical-align: middle"/> </span> <a href="https://therbootcamp.github.io/"> <span style="padding-left:82px"> <font color="#7E7E7E"> www.therbootcamp.com </font> </span> </a> <a href="https://therbootcamp.github.io/"> <font color="#7E7E7E"> Statistik mit R | Mai 2020 </font> </a> </span> </div> --- .pull-left35[ # <i>p</i>-Wert <ul> <li class="m1"><span><high>Vergleich der beobachteten Werte mit der Stichprobenverteilung</high> unter H0 verrät wie konsistent die gemachten Beobachtungen mit der H0 sind.</span></li> <li class="m2"><span>Möglichkeiten</span></li> <ul class="level"> <li><span><b>Likelihood</b></li></span> <li><span><high>Extremität</high></li></span> </ul> </ul> ] .pull-right5[ <p align = "left" > <img src="image/mechanism6.png" style='margin-top:20px'> </p> ] --- # Multiple lineare regression .pull-left4[ <ul> <li class="m1"><span>Wie beschreiben <high>mehrere linear verknüpfte Prädiktoren (x) zusammen</high> das Krierium (y)?</span></li> <li class="m2"><span>Parameter:</span></li> <ul class="level"> <li><span>β<sub>0</sub>: <high>Intercept</high> oder y-Achsenabschnitt</span></li> <li><span>β<sub>1</sub>: <high>Slope</high> für x<sub>1</sub></span></li> <li><span>β<sub>2</sub>: <high>Slope</high> für x<sub>2</sub></span></li> <li><span>β<sub>k</sub>: <high>Slope</high> für x<sub>k</sub></span></li> </ul> </ul> <br> `$$\Large \hat{y} = b_0 + b_1 \cdot x_1 + ... b_k \cdot x_k$$` ] .pull-right5[
] --- # Parameterschätzungen .pull-left4[ <ul> <li class="m1"><span>Die Schätzung basiert auf dem <high>Kleinsten-Quadrate Kriterium</high>.</span></li> </ul> </ul> <br> `$$\Large b_1 = \frac{r_{x_1y}-r_{x_2y}r_{x_2x_1}}{1-r_{x_2x_1}^2} \cdot \frac{s_y}{s_{x_1}}$$` `$$\Large b_2 = \frac{r_{x_2y}-r_{x_1y}r_{x_1x_2}}{1-r_{x_1x_2}^2} \cdot \frac{s_y}{s_{x_2}}$$` `$$\Large b_0 = \bar{y} + b_1 \cdot \bar{x_1} + b_2 \cdot \bar{x_2}$$` ] .pull-right5[
] --- # Datenmodell .pull-left4[ <ul> <li class="m1"><span>Gemäss dem Datenmodell der Regression folgen die Kriteriumswerte einer <high>Normalverteilung um den vorhergesagten Wert</high></span></li> </ul> </ul> <br> `$$\Large y \sim \mathcal{N}(\hat{y}, \sigma_e)$$` <br> `$$\large p(x|\mu, \sigma) = \frac{1}{\sigma \sqrt 2\pi}e^{-(x-\mu)/2\sigma^2}$$` ] .pull-right5[ <img src="Recap_files/figure-html/unnamed-chunk-4-1.png" style="display: block; margin: auto;" /> ] --- # Teststatistik .pull-left4[ <ul> <li class="m1"><span>Die Betagewichte folgen einer <high>t-Verteilung</high>.</span></li> <li class="m2"><span>Die Verteilung hängt von <high>Freiheitsgraden ν</high> ab.</span></li> </ul> </ul> <br> `$$\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}$$` <br> `$$\Large \nu = n - k - 1$$` ] .pull-right5[ <img src="Recap_files/figure-html/unnamed-chunk-5-1.png" style="display: block; margin: auto;" /> ] --- # t-Test .pull-left4[ <ul> <li class="m1"><span>Der Test vergleicht den beobachteten t-Wert mit entweder...</span></li> <ul> <li><span>Einseitig: t<sub>α</sub></span></li> <li><span>Zweiseitig: t<sub>α/2</sub></span></li> </ul> </ul> </ul> <br> `$$\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}>t_{\nu,\alpha}$$` <br> `$$\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}>t_{\nu,\frac{\alpha}{2}}$$` ] .pull-right5[ <img src="Recap_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" /> ] --- # Designmatrix .pull-left4[ <ul> <li class="m1"><span>Kategoriale Variablen müssen für die Regression in <high>k-1 neue Variablen kodiert werden</high>.</span></li> <li class="m2"><span>Zwei Kodierungsarten:</span></li> <ul> <li><span><high>Dummy coding</high> setzt Werte einer Kategorie auf 1, anonsten 0<br>→ <high>intercept = 0-Kategorie</high></span></li><br> <li><span><high>Effect coding</high> setzt Werte einer Kategorie auf 1, anonsten -1<br>→ <high>Intercept = ȳ</high></span></li> </ul> </ul> ] .pull-right5[ <p align="center"> <img src="image/design2.png"> </p> ] --- # Interaktionen .pull-left35[ <ul> <li class="m1"><span>Interaktionen modellieren <high>Moderationseffekte</high>.</span></li> <li class="m2"><span>Moderation: Effekt einer Variable wird durch eine andere Variable moderiert.</span></li> </ul> ] .pull-right5[
] --- # Interaktionen .pull-left35[ <ul> <li class="m1"><span>Interaktionen modellieren <high>Moderationseffekte</high>.</span></li> <li class="m2"><span>Moderation: Effekt einer Variable wird durch eine andere Variable moderiert.</span></li> </ul> ] .pull-right55[ ```r # Regression mit Interaktion mod <- lm(Nächte_log ~ Äquivalenzeinkommen * Bevölkerung, tour) # Regressionstests summary(mod)$coef ``` ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 6.389359 0.818306 7.808 0.0000 ## Äq.Eink. 0.000073 0.000048 1.539 0.1344 ## Bevölk. 0.000034 0.000027 1.286 0.2084 ## Äq.Eink.:Bevölk. 0.000000 0.000000 1.111 0.2756 ``` ] --- # Interaktionen .pull-left35[ <ul> <li class="m1"><span>Interaktionen modellieren <high>Moderationseffekte</high>.</span></li> <li class="m2"><span>Moderation: Effekt einer Variable wird durch eine andere Variable moderiert.</span></li> </ul> ] .pull-right55[ ```r # Regression mit Interaktion mod <- lm(Nächte_log ~ Äquivalenzeinkommen + Bevölkerung + Äquivalenzeinkommen:Bevölkerung, tour) # Regressionstests summary(mod)$coef ``` ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 6.389359 0.818306 7.808 0.0000 ## Äq.Eink. 0.000073 0.000048 1.539 0.1344 ## Bevölk. 0.000034 0.000027 1.286 0.2084 ## Äq.Eink.:Bevölk. 0.000000 0.000000 1.111 0.2756 ``` ] --- # Logistische Regression .pull-left4[ <ul> <li class="m1"><span>Dient der Vorhersage von <high>dichotomen Variablen</high>, d.h., Ja/Nein, 1/0, etc.</span></li> <li class="m2"><span>Basiert auf einem <high>logit-link mit Binomialem Datenmodell</high>.</span></li> </ul> <br> `$$\Large \hat{y} = p(y = 1) = \frac{1}{1 + e^{-b_0+b_1*x}}$$` ] .pull-right5[ <img src="Recap_files/figure-html/unnamed-chunk-12-1.png" style="display: block; margin: auto;" /> ] --- # Maximum Likelihood .pull-left4[ <ul> <li class="m1"><span>Maximum Likelihood ist neben Kleinste-Quadrate (OLS) die <high>wichtigste "Loss"-function der Statistik</high>.</span></li> <li class="m2"><span><high>Koinzidiert mit OLS</high> für nicht-generalisierte Modelle.</span></li> </ul> <br> `$$\large \mathbf{b} = \underset{\mathbf{b}}{\operatorname{argmax}} L\big(y_i|{\mathbf{b}}\big)$$` <p align="center" style="padding-bottom:5px;margin-top:0px;padding-top:20px"><u>Binomialmodell</u></p> `$$\large L(y_i|\mathbf{b})= \binom{n}{k} p_{y_i=1}^k(1-p_{y_i=1})^{n-k}$$` ] .pull-right5[ <img src="Recap_files/figure-html/unnamed-chunk-13-1.png" style="display: block; margin: auto;" /> ] --- # `glm()` .pull-left35[ <ul> <li class="m1"><span><high>Generalisierte lineare Modelle</high> können mit <mono>glm()</mono> spezifiziert werden.</high></span></li> <li class="m2"><span>Argument <mono>family</mono> bestimmt <high>Link und Datenmodell</high>.</span></li> </ul> ] .pull-right55[ ```r # Logistische Regression mod <- glm(Europa ~ Besucher, data = tour, family = 'binomial') mod ``` ``` ## ## Call: glm(formula = Europa ~ Besucher, family = "binomial", data = tour) ## ## Coefficients: ## (Intercept) Besucher ## -0.030579 0.000221 ## ## Degrees of Freedom: 70 Total (i.e. Null); 69 Residual ## Null Deviance: 98.3 ## Residual Deviance: 96.9 AIC: 101 ``` ] --- class: middle, center <h1><a href=https://therbootcamp.github.io/SmR_2020Mai/index.html>Schedule</a></h1>