Processing math: 15%
+ - 0:00:00
Notes for current slide
Notes for next slide

Lineare Modelle

Statistik mit R
The R Bootcamp

Mai 2020

1 / 25

Lineare Modelle

  • Die meisten inferenzstatistischen Tests gehören zur Klasse der linearen Modelle.
  • Beispiele
    • Regression
    • t-Test
    • Varianzanalyse (ANOVA)
    • Mediationsanalyse
    • Faktorenanalyse
    • Strukturgleichungsmodelle
2 / 25

Korrelation

  • Korrelationsmasse drücken aus, wie stark Veränderungen in einer Variable mit Veränderungen in einer anderen Variable einhergehen.
  • Beispiele
    • Produkt-Moment Korrelation
    • Rangkorrelation
    • Phi-koeffizient


rxy=i(xiˉx)(yiˉy)(n1)sxsy

3 / 25

Korrelation

  • Korrelationsmasse drücken aus, wie stark Veränderungen in einer Variable mit Veränderungen in einer anderen Variable einhergehen.
  • Beispiele
    • Produkt-Moment Korrelation
    • Rangkorrelation
    • Phi-koeffizient


rxy=i(xiˉx)(yiˉy)(n1)sxsy

4 / 25

Lineare Regression

  • Die lineare Regression ist eine gerichtete Zusammenhangsanalyse.
  • Ein Kriterium soll durch einen (einfach) oder mehrere (multiple) Prädiktoren modelliert werden.
  • Getestet wird ob und wie sehr der Prädiktor / die Prädiktoren das Kriterium erklären.
5 / 25

Einfache lineare Regression

  • Wie gut sagt eine lineare Funktion des Prädiktors (x) das Krierium (y) vorher?
  • Parameter:
    • β0: Intercept oder y-Achsenabschnitt
    • β1: Slope oder Steigung


ˆy=b0+b1x

6 / 25

Einfache lineare regression

  • Wie gut sagt eine lineare Funktion des Prädiktors (x) das Krierium (y) vorher?
  • Parameter:
    • β0: Intercept oder y-Achsenabschnitt
    • β1: Slope oder Steigung


\Large \hat{Nächte} = b_0 + b_1 * Äquiv.eink.

7 / 25

Parameterschätzung

  • Die Parameter, β0 und β1 müssen aus den Daten geschätzt werden.
  • Die Schätzung basiert auf dem Kleinsten-Quadrate Kriterium.


\Large b_1 = r_{xy} \cdot \frac{s_y}{s_x} \Large b_0 = \bar{y} + b_1 \cdot \bar{x}

8 / 25

Residuen

  • Die Residuen e sind der Fehler den die Regreessionsfunktion in der Vorhersage ŷ des Kriteriums macht.
  • Mittels der Residuen kann die Qualität der Vorhersage evaluaiert werden.


\Large e = y - \hat{y}

9 / 25

Kleinste-Quadrate Kriterium

  • Die Qualität einer Regression wird über die Summe der Quadrate der Residuen bestimmt.
  • Die Parameter b=[b0, b1] werden so gewählt, so dass die Quadrate der Residuen minimal sind.


\large \mathbf{b} = \underset{\mathbf{b}}{\operatorname{argmin}} \sum_i e_{\mathbf{b}}^2

10 / 25

Kleinste-Quadrate Kriterium

  • Die Qualität einer Regression wird über die Summe der Quadrate der Residuen bestimmt.
  • Die Parameter b=[b0, b1] werden so gewählt, so dass die Quadrate der Residuen minimal sind.


\large \mathbf{b} = \underset{\mathbf{b}}{\operatorname{argmin}} \sum_i e_{\mathbf{b}}^2

11 / 25

R-Quadrat

  • Die Qualität einer Regression wird über die Summe der Quadrate der Residuen bestimmt.
  • Der inverse Wert, d.h., eins minus die Summe der Residualquadrate, is als R-Quadrat definiert.


\large R^2 = 1 - \frac{\sum_i e^2}{\sum_i (y - \bar{y})^2}\\ \;\;\;\;\; \large =1 - \frac{\sum_i (y - \hat{y})^2}{\sum_i (y - \bar{y})^2}

12 / 25

Multiple lineare regression

  • Wie beschreiben mehrere linear verknüpfte Prädiktoren (x) zusammen das Krierium (y)?
  • Parameter:
    • β0: Intercept oder y-Achsenabschnitt
    • β1: Slope für x1
    • β2: Slope für x2
    • βk: Slope für xk


\Large \hat{y} = b_0 + b_1 \cdot x_1 + ... b_k \cdot x_k

13 / 25

Parameterschätzungen

  • Die Schätzung basiert auf dem Kleinsten-Quadrate Kriterium.


\Large b_1 = \frac{r_{x_1y}-r_{x_2y}r_{x_2x_1}}{1-r_{x_2x_1}^2} \cdot \frac{s_y}{s_{x_1}} \Large b_2 = \frac{r_{x_2y}-r_{x_1y}r_{x_1x_2}}{1-r_{x_1x_2}^2} \cdot \frac{s_y}{s_{x_2}}

\Large b_0 = \bar{y} + b_1 \cdot \bar{x_1} + b_2 \cdot \bar{x_2}

14 / 25

Datenmodell

  • Gemäss dem Datenmodell der Regression folgen die Kriteriumswerte einer Normalverteilung um den vorhergesagten Wert


\Large y \sim \mathcal{N}(\hat{y}, \sigma_e)

\large p(x|\mu, \sigma) = \frac{1}{\sigma \sqrt 2\pi}e^{-(x-\mu)/2\sigma^2}

15 / 25

Teststatistik

  • Die Betagewichte folgen einer t-Verteilung.
  • Die Verteilung hängt von Freiheitsgraden ν ab.


\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}


\Large \nu = n - k - 1

16 / 25

Standardfehler

  • Der Standardfehler σβ bezieht die Interkorrelation aller Prädiktoren mit ein.


17 / 25

t-Test

  • Der Test vergleicht den beobachteten t-Wert mit entweder...
    • Einseitig: tα
    • Zweiseitig: tα/2


\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}>t_{\nu,\alpha}

\Large t_\nu=\frac{\beta_j}{\sigma_{\beta_j}}>t_{\nu,\frac{\alpha}{2}}

18 / 25

Formulas

  • Modelle in R werden über formulas definiert.

Syntax

Funktion Beschreibung
+ / - Ergänze / eliminiere Prädiktor.
* / : Ergänze Interaktionen mit/ohne Haupteffekte.
1 / 0 Ergänze / eliminiere Intercept
. Ergänze alle Prädiktoren.


20 / 25

lm()

Fitting

Funktion Beschreibung
lm(formula, data) Fitte ein lineares Modell.

Evaluation

Funktion Beschreibung
summary() Erhalte Testergebnisse.
coef(mod) Erhalte Koeffizienten.
predict(mod), resid(mod) Erhalte gefittete Werte / Residuen.
# Fitte Model
naechte_lm <- lm(
formula = Nächte ~ Äquivalenzeinkommen + Bevölkerung,
data = naechte)
21 / 25

lm()

Fitting

Funktion Beschreibung
lm(formula, data) Fitte ein lineares Modell.

Evaluation

Funktion Beschreibung
summary() Erhalte Testergebnisse.
coef(mod) Erhalte Koeffizienten.
predict(mod), resid(mod) Erhalte gefittete Werte / Residuen.
# Printe naechte_lm
naechte_lm
##
## Call:
## lm(formula = Nächte ~ Äquivalenzeinkommen + Bevölkerung, data = naechte)
##
## Coefficients:
## (Intercept) Äquivalenzeinkommen Bevölkerung
## -1.99e+03 1.17e-01 8.33e-02
22 / 25

summary()

Fitting

Funktion Beschreibung
lm(formula, data) Fitte ein lineares Modell.

Evaluation

Funktion Beschreibung
summary() Erhalte Testergebnisse.
coef(mod) Erhalte Koeffizienten.
predict(mod), resid(mod) Erhalte gefittete Werte / Residuen.
# Zeige Testergebnisse
summary(naechte_lm)
##
## Call:
## lm(formula = Nächte ~ Äquivalenzeinkommen + Bevölkerung, data = naechte)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5403 -795 144 672 10721
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.99e+03 1.12e+03 -1.78 0.085 .
## Äquivalenzeinkommen 1.17e-01 6.32e-02 1.86 0.073 .
## Bevölkerung 8.33e-02 1.67e-02 4.99 2.2e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
23 / 25

predict()

Fitting

Funktion Beschreibung
lm(formula, data) Fitte ein lineares Modell.

Evaluation

Funktion Beschreibung
summary() Erhalte Testergebnisse.
coef(mod) Erhalte Koeffizienten.
predict(mod), resid(mod) Erhalte gefittete Werte / Residuen.
# Zeige gefittete Werte (only first 5)
predict(naechte_lm)
# Zeige Residualwerte (only first 10)
resid(naechte_lm)
## 1 2 3 4 5
## 1392.5 -605.0 961.1 7338.0 -490.8
## 1 2 3 4 5
## 196.5 895.0 -411.1 10721.0 541.8
24 / 25

Lineare Modelle

  • Die meisten inferenzstatistischen Tests gehören zur Klasse der linearen Modelle.
  • Beispiele
    • Regression
    • t-Test
    • Varianzanalyse (ANOVA)
    • Mediationsanalyse
    • Faktorenanalyse
    • Strukturgleichungsmodelle
2 / 25
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow