Neue Statistik

# Neue Statistik
### Statistik mit R <a href='https://therbootcamp.github.io'> The R Bootcamp </a> <a href='https://therbootcamp.github.io/SmR_2021Oct/'> </a>  <a href='https://therbootcamp.github.io'> </a>  <a href='mailto:therbootcamp@gmail.com'> </a>  <a href='https://www.linkedin.com/company/basel-r-bootcamp/'> </a>
### Oktober 2021

---

<div class="my-footer">
 
 
 <img src="https://raw.githubusercontent.com/therbootcamp/therbootcamp.github.io/master/_sessions/_image/by-sa.png" height=14 style="vertical-align: middle"/>
 
 <a href="https://therbootcamp.github.io/">
 
 
 www.therbootcamp.com
 
 
 </a>
 <a href="https://therbootcamp.github.io/">
 
 Statistik mit R | Oktober 2021
 
 </a>
 
 </div>

---

# Neue = Alte Statistik

<ul>
 <li class="m1"><high>Bessere Studien</high></li>
 <ul class="level">
 <li>Informative designs</li>
 <li>Planung der Stichprobengrösse</li>
 <li>Registrierung</li>
 <li>Kein p-hacking</li>
 <li>Vollständiges berichten</li>
 <li>Replikation</li>
 </ul>
 
 <li class="m2"><high>Bessere Statistik</high></li>
 <ul class="level">
 <li>Unsicherheit berichten</li>
 <li>p Herabsetzen</li>
 <li>Bayesianische Statistik</li>
 </ul>
</ul>

]

<img src="image/blastfromthepast.jpg" height=500px style="border-radius:50px"> 
from <a href="https://www.amazon.com/Blast-Past-Brendan-Fraser/dp/0780626494">amazon.com</a>

]

---

# Replikationskrise

<ul>
 <li class="m1">Eine Replikationskrise geht um in <high>diversen akademischen Feldern</high></li>
 <li class="m2">In einer grossen Studie in der Psychologie konnten <high>nur 36% der Ergebnisse repliziert</high> werden.</li>
 <li class="m3">Die niedrige Replikationsrate ist das Ergebnis von <high>Questionable Research Practices</high>.</li>
</ul>

Siehe vergleichbare Studien in [**Medicine**](https://therbootcamp.github.io/SwR_2019Apr/_sessions/NewStats/literature/Ioannidis2005.pdf), [**Economics**](https://therbootcamp.github.io/SwR_2019Apr/_sessions/NewStats/literature/Camerer2016.pdf), [**Marketing**](https://therbootcamp.github.io/SwR_2019Apr/_sessions/NewStats/literature/Hunter2001.pdf), [**Social sciences**](https://therbootcamp.github.io/SwR_2019Apr/_sessions/NewStats/literature/Camerer2018.pdf).

]

<img src="image/crisis.png" height=410px> 
from <a href="https://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=6256&context=lkcsb_research">Open Science Collaboration</a>

]

---

# Zeichen guter Studien

.pull-left4[
<ul>
 <li class="m1">Informative Designs Designe den bestmöglichen Test der Hypothese.</li>
 <li class="m2"><high>Stichprobenplanung</high> Wähle angemessenes N für klare Entscheidungen.</li>
 <li class="m3">Registrierungen Registriere deine Hypothesen vor der Datenerhebung.</li>
 <li class="m4"><high>Kein p-hacking</high> Teste geplante Analysen oder berichte sie als explorativ.</li>
 <li class="m5">Vollständige Berichterstattung Berichte alle durchgeführten Analysen.</li>
 <li class="m6">Replikation Wiederhole deine Studie.</li>
</ul>

]

<img src="image/filedrawer_bw.png"> 
adapted from <a href="https://www.someecards.com/usercards/viewcard/MjAxMy0zOGE1Mzg3YjY4YzE1NTA0/?tagSlug=birthday">Someecards.com</a>

]

---

# Stichprobenplanung

<ul>
 <li class="m1">Die Grösse der Stichprobe sollte die nötige <high>Trennschärfe für das Detektieren eines Effekts ermöglichen</high></high></li>
 <li class="m2">Grössere Stichproben &rarr; <high>schmalere Stichprobenverteilungen</high> &rarr; höhere Trennschärfe.</li>
</ul>

]

]

---

# Stichprobenplanung

<ul>
 <li class="m1">Die Grösse der Stichprobe sollte die nötige <high>Trennschärfe für das Detektieren eines Effekts ermöglichen</high></high>.</li>
 <li class="m2">Grössere Stichproben &rarr; <high>schmalere Stichprobenverteilungen</high> &rarr; höhere Trennschärfe.</li>
</ul>

]

]

---

# Stichprobenplanung in R

<ul>
 <li class="m1">Die Grösse der Stichprobe sollte die nötige <high>Trennschärfe für das Detektieren eines Effekts ermöglichen</high>.</li>
 <li class="m2">Grössere Stichproben &rarr; <high>schmalere Stichprobenverteilungen</high> &rarr; höhere Trennschärfe.</li>
</ul>

]

```r
# Lade pwr Paket
library(pwr)

# N für einen grossen Effekt im t-test
pwr.t.test(sig.level = .05, 
           power = .95, 
           d = .2) # grosser Effekt
```

```
## 
##      Two-sample t test power calculation 
## 
##               n = 650.7
##               d = 0.2
##       sig.level = 0.05
##           power = 0.95
##     alternative = two.sided
## 
## NOTE: n is number in *each* group
```

]
---

# Stichprobenplanung in R

]

```r
# Lade pwr Paket
library(pwr)

# N für einen grossen Effekt im t-test
pwr.t.test(sig.level = .05, 
           power = .95, 
           d = .8) # grosser Effekt
```

```
## 
##      Two-sample t test power calculation 
## 
##               n = 41.59
##               d = 0.8
##       sig.level = 0.05
##           power = 0.95
##     alternative = two.sided
## 
## NOTE: n is number in *each* group
```

]

---

# p-hacking

<high>“If you torture the data long enough, it will confess.”</high>

Ronald Coase

from <a href="https://fivethirtyeight.com/features/science-isnt-broken/#part1">fivethirtyeight.com</a>

]

.pull-right75[
 
<iframe src="https://projects.fivethirtyeight.com/p-hacking/index.html?initialWidth=1024&amp;childId=phacking&amp;parentTitle=Science%20Isn%E2%80%99t%20Broken%20%7C%20FiveThirtyEight&amp;parentUrl=https%3A%2F%2Ffivethirtyeight.com%2Ffeatures%2Fscience-isnt-broken%2F" width="100%" scrolling="yes" marginheight="0" frameborder="0" height="550px"></iframe>

]

---

# p-hacking

<ul>
 <li class="m1">p-hacking bezeichnet des Missbrauch von Datenanalyse, um <high>Effekte zu zeigen wo es eigentlich keine gibt</high>.</li> 
 <li class="m2"><high>Optionales Stoppen</high> Stoppen der Datenanalyse sobald Signifikanz erreicht wurde.</li> 
 <li class="m3"><high>HARKing</high> Hypothesizing After the Data are Known. Geschieht wenn nicht-geplante Analysen als geplant dargestellt werden.</li>
</ul>

]

]

---

# Dos and Don'ts

<h style="font-size:60px;position:absolute;bottom:390px;left:168px;color:white">Exploration</h> 
 Columbus looking for India, from <a href="https://www.history.com/topics/exploration">history.com</a>
 
 
 Do <br2>
 
 Alles <bt>

Don't <br2>
 
 Die Ergebnisse als konfirmatorisch präsentieren.

]

<h style="font-size:60px;position:absolute;bottom:390px;left:675px;color:white">Konfirmation</h> 
 Villemard vision for 2000, from <a href="https://www.sadanduseless.com/world-in-2000/">sadanduseless.com</a>

Do <br2>
 
 Stelle Vorhersagen auf. 
 Plane die Stichprobengrösse. 
 Lege den Analyseplan fest. 
 Registriere.

Don't <br2>
 
 Führe nicht-geplante Analysen durch.

]

---

# Bessere Statistik

<ul>
 <li class="m1">Probleme mit p-Werten.</li>
 <ul>
 <li><high>Schwer zu interpretieren</high> als Mass für Evidenz.</li>
 <li>Dienen einer <high>arbiträren Binarisierung</high>.</li>
 </ul> 
 <li class="m2">"Neue" Statistik.</li>
 <ul>
 <li>Fokus auf <high>Schätzung</high>.</li>
 <li>Kommunikation der <high>Unsicherheit</high>.</li>
 </ul>
</ul>

`$$Confidence\,Interval\,(CI) = \bar{x} \pm t_{1-\alpha} \sigma_{\bar{x}}$$`

]

]

---

# Konfidenzinterval

<ul>
 <li class="m1">Konfidenzintervalle sind <high>rearrangierte Signfikanztests</high>.</li>
</ul>

]

]

---

# Konfidenzinterval

<ul>
 <li class="m1">Konfidenzintervalle sind <high>rearrangierte Signfikanztests</high>.</li>
</ul>

]

```r
# Simulierte Daten
t_1 <- rnorm(100, 3, 1) 
t_2 <- rnorm(100, 4, 1)

# Standard Konfidenzinterval
N <- length(t_1)
Delta <- mean(t_1 - t_2)
SE <- sd(t_1 - t_2) / sqrt(N)
Delta + SE * qt(.95, N - 1) * c(-1, 1)
```

```
## [1] -0.9381 -0.4270
```

]

---

# Konfidenzinterval

<ul>
 <li class="m1">Konfidenzintervalle sind <high>rearrangierte Signfikanztests</high>.</li>
</ul>

]

```r
# Bootstrap-Konfidenzinterval
bf <- function(x,ind) {
 sum(x[ind])/length(x[ind])
 }
boot_res <- boot(t_1 - t_2, bf, 1000)
boot.ci(boot_res)
```

```
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot_res)
## 
## Intervals : 
## Level      Normal              Basic         
## 95%   (-0.9892, -0.3802 )   (-0.9995, -0.3874 )
```

]

---

# Effektstärke

<ul>
 <li class="m1">Wichtiger als die Signifikanz, ist ob ein <high>Effekt von bedeutsamer Grösse</high> ist.</li>
 <li class="m2">Je nach Situation, werden <high>verschiedene Effektstärkemasse</high> herangezogen.</li>
</ul>

<table style="cellspacing:0; cellpadding:0; border:none; padding-top:10px">
 <col width="50%">
 <col width="50%">
<tr>
 <td bgcolor="white">
 Situation
 </td>
 <td bgcolor="white">
 Mass
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 Mittelwertsvergleiche
 </td>
 <td bgcolor="white">
 Cohen's d Hedge's g &eta;2 
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 Korrelation, Regression 
 </td>
 <td bgcolor="white">
 r R2 f2
 </td> 
</tr>
</table>

]

]

---

# Effektstärke

]

```r
# Bootstrap-Konfidenzinterval für Cohen's d
bf <- function(x,ind) {
 mean(x[ind])/sd(x[ind])
 }
boot_res <- boot(t_1 - t_2, bf, 1000)
boot.ci(boot_res)
```

]

---

# Bayesianische Statistik

<ul>
 <li class="m1">Ergänzt klassische (frequentistische) Statistik um eine Verteilung der <high>Grundwahrscheinlichkeit der Hypothesen (Prior)</high>.</li>
 <li class="m2">Erlaubt die Berechnung eines <high>wahren p-Werts</high>.</li>
</ul>

]

]

---

# Bayesianische Statistik

<ul>
 <li class="m1">Bayesianische Statistik war <high>lange unpopular</high>.</li>
 <ul>
 <li>Es ist <high>komputational anspruchsvoll</high> <mono>p(D)</mono> zu berechnen.</li>
 <li>Das Festlegen der Prior ist <high>notwendigerweise subjektiv</high>.</li>
 </ul>
 <li class="m2">Allerdings hat sich dies geändert.</li>
 <ul>
 <li>Schnellere Computer/Algorithmen erlauben eine Effiziente Schätzung von <mono>p(D)</mono>.</li>
 <li>Einsicht, dass Statistik <high>subjektiv</high> ist.</li>
 <li>Fokus auf <high>ignorante Priors</high>.</li>
 </ul>
</ul>

]

]

---

# Bayesian statistics

<ul>
 <li class="m1">Die Pakete <a href="https://cran.r-project.org/package=rstanarm/"><mono>rstanarm</mono></a> and
<a href="https://cran.r-project.org/package=BayesFactor/"><mono>BayesFactor</mono></a> machen Bayesianische Analysen einfach.</li>
<ul>

<table style="cellspacing:0; cellpadding:0; border:none; padding-bottom:30px">
 <col width="25%">
 <col width="20%">
 <col width="55%">
<tr>
 <td bgcolor="white">
 Function
 </td>
 <td bgcolor="white">
 Package
 </td> 
 <td bgcolor="white">
 Description
 </td>
</tr>
<tr>
 <td bgcolor="white">
 <mono>stan_glm</mono>, <mono>stan_glmer</mono>
 </td>
 <td bgcolor="white">
 <mono>rstanarm</mono>
 </td>
 <td bgcolor="white">
 Bayesian (mixed) regression
 </td>
</tr>
<tr>
 <td bgcolor="white">
 <mono>ttestBF</mono>, <mono>anovaBF</mono>
 </td>
 <td bgcolor="white">
 <mono>BayesFactor</mono>
 </td>
 <td bgcolor="white">
 Standard h-tests
 </td>
</tr>
<tr>
 <td bgcolor="white">
 <mono>lmBF</mono>
 </td>
 <td bgcolor="white">
 <mono>BayesFactor</mono>
 </td>
 <td bgcolor="white">
 Bayesian (mixed) regressions
 </td>
</tr>
</table>

]

```
## stan_glm
##  family:       gaussian [identity]
##  formula:      income ~ height
##  observations: 300
##  predictors:   2
## ------
##             Median MAD_SD
## (Intercept) 9299.6 2040.4
## height       -10.8   11.8
## 
## Auxiliary parameter(s):
##       Median MAD_SD
## sigma 2637.9  107.9
## 
## ------
## * For help interpreting the printed output see ?print.stanreg
## * For info on the priors used see ?prior_summary.stanreg
```

]

---

# Bayesian statistics

]

```
## Bayes factor analysis
## --------------
## [1] height : 0.1813 ±0%
## 
## Against denominator:
##   Intercept only 
## ---
## Bayes factor type: BFlinearModel, JZS
```

]

---

<h1><a href="https://therbootcamp.github.io/SmR_2021Oct/_sessions/NewStats/NewStats_practical.html">Practical</a></h1>