Wrangling

# Wrangling
### Explorative Datenanalyse mit R <a href='https://therbootcamp.github.io'>The R Bootcamp</a> <a href='https://therbootcamp.github.io/EDA_2022Mar/'> </a>  <a href='https://therbootcamp.github.io'> </a>  <a href='mailto:therbootcamp@gmail.com'> </a>  <a href='https://www.linkedin.com/company/basel-r-bootcamp/'> </a>
### März 2022

---

<div class="my-footer">
 
 
 <img src="https://raw.githubusercontent.com/therbootcamp/therbootcamp.github.io/master/_sessions/_image/by-sa.png" height=14 style="vertical-align: middle"/>
 
 <a href="https://therbootcamp.github.io/">
 
 
 www.therbootcamp.com
 
 
 </a>
 <a href="https://therbootcamp.github.io/">
 
 Explorative Datenanalyse mit R | März 2022
 
 </a>
 
 </div>

---

<!---

# Was ist Wrangling?

<img src="image/wrangling.jpeg" height=450px> 
from <a href="https://datasciencebe.com/tag/data-wrangling/">datasciencebe.com</a>

--->

# Was ist Wrangling?

<ul>
 <li class="m1"><high>Transformieren</high>
 
 <ul class="level">
 <li>Spaltennamen verändern</li>
 <li>Neue Variablen kreieren</li>
 </ul></li>
 <li class="m2"><high>Organisieren</high>
 
 <ul class="level">
 <li>Sortieren</li>
 <li>Datensätze zusammenführen</li>
 <li>Spalten zu Zeilen flippen</li>
 </ul></li>
 <li class="m3"><high>Aggregieren</high>
 
 <ul class="level">
 <li>Datengruppen bilden</li>
 <li>Statistiken für Gruppen berechnen</li>
 </ul></li>
</ul>

]

]

---

# 2 'dreckige' Datensätze

<ul>
 <li class="m1"><high>Umbenennen</high>: Intuitive Spaltennamen vergeben.</li>
 <li class="m2"><high>Umkodieren</high>: Angemessene Einheiten und Datenlabels vergeben.</li>
 <li class="m3"><high>Verbinden</high>: Datensätze zusammenführen.</li>
 <li class="m4"><high>Sortieren</high>: Datensatz ordnen.</li>
 <li class="m5"><high>Filtern</high>: Relevante Fälle auswählen.</li>
 <li class="m6"><high>Auswählen</high>: Relevante Variablen auswählen.</li>
</ul>

]

```r
patienten
```

```
## # A tibble: 5 × 3
## id X1 X2
## <dbl> <dbl> <dbl>
## 1 1 37 1
## 2 2 65 2
## 3 3 57 2
## 4 4 34 1
## 5 5 45 2
```

```r
ergebnisse
```

```
## # A tibble: 5 × 3
## id t_1 t_2
## <dbl> <dbl> <dbl>
## 1 4 100 105
## 2 92 134 150
## 3 1 123 135
## 4 2 143 140
## 5 99 102 68
```

]

---

# Das <mono>tidyverse</mono>

<ul>
 <li class="m1">Das <a href="https://www.tidyverse.org/"><mono>tidyverse</mono></a> ist eine Sammlung hoch-performanter, nutzerfreundlicher Pakete für eine effiziente Datenaufbereitung und -analyse.</li>
</ul>

<ol style="padding-left:72px">
 <li><mono>readr</mono> für Daten I/O.</li>
 <li><mono>tibble</mono> für moderne <mono>data_frame</mono>'s.</li>
 <li><high><mono>dplyr</mono> für Datenverarbeitung</high>.</li>
 <li><high><mono>tidyr</mono> für Datenverarbeitung</high>.</li>
 <li><mono>ggplot2</mono> für Grafiken.</li>
</ol>

---

# <mono>%>%</mono>

<ul>
 <li class="m1">Der präferierte Gebrauch von <mono>dplyr</mono> beinhaltet einen <high>neuen Operator</high>, die Pipe <highm>%>%</highm>.</li>
</ul>

<img src="image/pipe.jpg" width = "300px"> 
from <a href="https://upload.wikimedia.org/wikipedia/en/thumb/b/b9/MagrittePipe.jpg">wikimedia.org</a>

]

```r
# Numerischer Vektor
score <- c(8, 4, 6, 3, 7, 3)
score
```

```
## [1] 8 4 6 3 7 3
```

```r
# Mittelwert: Base-R-style
mean(score)
```

```
## [1] 5.167
```

```r
# Mittelwert: dplyr-style
score %>%  
  mean()  
```

```
## [1] 5.167
```

]

---

# <mono>%>%</mono>

<ul>
 <li class="m1">Der präferierte Gebrauch von <mono>dplyr</mono> beinhaltet einen <high>neuen Operator</high>, die Pipe <highm>%>%</highm>.</li>
</ul>

]

]

---

# Transformation

<ul>
 <li class="m1"><high>Umbenennen</high>: Intuitive Spaltennamen vergeben.
 
 <ul class="level">
 <li><mono>rename()</mono></li>
 </ul>
 </li>
 <li class="m2"><high>Umkodieren</high>: Angemessene Einheiten und Datenlabels vergeben.
 
 <ul class="level">
 <li><mono>mutate()</mono></li>
 <li><mono>case_when()</mono></li>
 </ul>
 </li>
 <li class="m3"><high>Verbinden</high>: Datensätze zusammenführen.
 
 <ul class="level">
 <li><mono>left_join()</mono></li>
 </ul>
 </li>
</ul>

]

```r
patienten
```

```
## # A tibble: 5 × 3
## id X1 X2
## <dbl> <dbl> <dbl>
## 1 1 37 1
## 2 2 65 2
## 3 3 57 2
## 4 4 34 1
## 5 5 45 2
```

```r
ergebnisse
```

```
## # A tibble: 5 × 3
## id t_1 t_2
## <dbl> <dbl> <dbl>
## 1 4 100 105
## 2 92 134 150
## 3 1 123 135
## 4 2 143 140
## 5 99 102 68
```

]

---

# `rename()`

```r
TIBBLE %>%
  rename(NEU = ALT,
         NEU = ALT)
```

]

```r
# Starte mit Datensatz
patienten %>%

# Ändere Spaltennamen
  rename(alter = X1,
         bedingung = X2)
```

```
## # A tibble: 5 × 3
## id alter bedingung
## <dbl> <dbl> <dbl>
## 1 1 37 1
## 2 2 65 2
## 3 3 57 2
## 4 4 34 1
## 5 5 45 2
```

]

---

# `mutate()`

```r
TIBBLE %>%
  mutate(
   NAME1 = DEFINITION1,
   NAME2 = DEFINITION2,
   NAME3 = DEFINITION3,
   ...
  )
```
]

```r
patienten %>% 
  rename(alter = X1, 
         bedingung = X2) %>%
  
# Kreiere neue Variablen
  mutate(monate = alter * 12,
         dekaden = alter / 10)
```

```
## # A tibble: 5 × 5
## id alter bedingung monate dekaden
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 37 1 444 3.7
## 2 2 65 2 780 6.5
## 3 3 57 2 684 5.7
## 4 4 34 1 408 3.4
## 5 5 45 2 540 4.5
```

]

---

# `case_when()`

```r
TIBBLE %>%
  mutate(
    NAME = case_when(
      LOGICAL1 ~ WERT1,
      LOGICAL2 ~ WERT2,
      ...
      )
    )
```

]

```r
patienten %>% 
  rename(alter = X1, 
         bedingung = X2) %>%
  
# Kreiere bed_label von bedingung
  mutate(bed_label = case_when(
    bedingung == 1 ~ "placebo",
    bedingung == 2 ~ "medikament"))
```

```
## # A tibble: 5 × 4
## id alter bedingung bed_label 
## <dbl> <dbl> <dbl> <chr> 
## 1 1 37 1 placebo 
## 2 2 65 2 medikament
## 3 3 57 2 medikament
## 4 4 34 1 placebo 
## 5 5 45 2 medikament
```

]

---

# Verbinde Daten
 

 <img src="image/joining_data.png" height="450px">

---

# `inner_join()`

```r
TIBBLE1 %>%
  inner_join(TIBBLE2, 
             by = c("KEY"))
```

]

```r
patienten %>% 
  rename(alter = X1, bedingung = X2) %>%
  mutate(bed_label = case_when(
    bedingung == 1 ~ "placebo",
    bedingung == 2 ~ "medikament")) %>%
  
  # Verbinde mit ergebnisse
  inner_join(ergebnisse, by = "id")
```

```
## # A tibble: 3 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 1 37 1 placebo 123 135
## 2 2 65 2 medikament 143 140
## 3 4 34 1 placebo 100 105
```
]

---

# `left_join()`

```r
TIBBLE1 %>%
  left_join(TIBBLE2, 
            by = c("KEY"))
```

]

```
## # A tibble: 5 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 1 37 1 placebo 123 135
## 2 2 65 2 medikament 143 140
## 3 3 57 2 medikament NA NA
## 4 4 34 1 placebo 100 105
## 5 5 45 2 medikament NA NA
```
]

---

# Organisation

<ul>
 <li class="m4"><high>Sortieren</high>: Datensatz ordnen.
 
 <ul class="level">
 <li><mono>arrange()</mono></li>
 </ul>
 </li>
 <li class="m5"><high>Filtern</high>: Relevante Fälle auswählen.
 
 <ul class="level">
 <li><mono>slice()</mono></li>
 <li><mono>filter()</mono></li>
 </ul>
 </li>
 <li class="m6"><high>Auswählen</high>: Relevante Variablen auswählen.
 
 <ul class="level">
 <li><mono>select()</mono></li>
 </ul>
 </li>
</ul>

]

```r
# Verbundener tibble
patienten_ergebnisse
```

]

---

# `arrange()`

```r
# Sortiere aufsteigend
TIBBLE %>%
  arrange(VAR1, VAR2)

# Sortiere absteigend (mit desc())
TIBBLE %>%
  arrange(desc(VAR1), VAR2)
```

]

```r
patienten_ergebnisse %>%
  
  # Sortiere nach bedingung
  arrange(bedingung)
```

```
## # A tibble: 5 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 1 37 1 placebo 123 135
## 2 4 34 1 placebo 100 105
## 3 2 65 2 medikament 143 140
## 4 3 57 2 medikament NA NA
## 5 5 45 2 medikament NA NA
```

]

---

# `arrange()`

```r
# Sortiere aufsteigend
TIBBLE %>%
  arrange(VAR1, VAR2)

# Sortiere absteigend (mit desc())
TIBBLE %>%
  arrange(desc(VAR1), VAR2)
```
]

```r
patienten_ergebnisse %>%
  
  # Sortiere nach beidem
  arrange(bedingung, alter) 
```

```
## # A tibble: 5 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 4 34 1 placebo 100 105
## 2 1 37 1 placebo 123 135
## 3 5 45 2 medikament NA NA
## 4 3 57 2 medikament NA NA
## 5 2 65 2 medikament 143 140
```

]

---

# `slice()`

```r
# Slice mit Sequenz
TIBBLE %>%
  slice(INDEX_START:INDEX_STOP)

# Slice mit Vektor  
TIBBLE %>%
  slice(c(INDEX1, INDEX2, ...))
```

]

```r
patienten_ergebnisse %>%
  arrange(bedingung, alter) %>%

# Zeilen 3 und 5 
  slice(c(3, 5))
```

```
## # A tibble: 2 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 5 45 2 medikament NA NA
## 2 2 65 2 medikament 143 140
```

]

---

# `slice()`

```r
# Slice mit Sequenz
TIBBLE %>%
  slice(INDEX_START:INDEX_STOP)

# Slice mit Vektor  
TIBBLE %>%
  slice(c(INDEX1, INDEX2, ...))
```

]

```r
patienten_ergebnisse %>%
  arrange(bedingung, alter) %>%

# Erste 4 Zeilen
  slice(1:4)
```

```
## # A tibble: 4 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 4 34 1 placebo 100 105
## 2 1 37 1 placebo 123 135
## 3 5 45 2 medikament NA NA
## 4 3 57 2 medikament NA NA
```

]

---

# `filter()`

```r
# Filter mit logische Vergleichen
TIBBLE %>%
 filter(VAR1 == WERT1,
 VAR2 > WERT2,
 VAR3 < WERT3,
 VAR4 == WERT4 | VAR5 < WERT5)
```
]

```r
patienten_ergebnisse %>%
  
  # Patienten mit alter > 35
  filter(alter > 35)
```

```
## # A tibble: 4 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 1 37 1 placebo 123 135
## 2 2 65 2 medikament 143 140
## 3 3 57 2 medikament NA NA
## 4 5 45 2 medikament NA NA
```

]

---

# `filter()`

```r
# Filter mit logische Vergleichen
TIBBLE %>%
 filter(VAR1 == WERT1,
 VAR2 > WERT2,
 VAR3 < WERT3,
 VAR4 == WERT4 | VAR5 < WERT5)
```

]

```r
# alter grösser 35 & bed_label ist medikament
patienten_ergebnisse %>%
  filter(alter > 35,
         bed_label == "medikament")
```

```
## # A tibble: 3 × 6
## id alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 2 65 2 medikament 143 140
## 2 3 57 2 medikament NA NA
## 3 5 45 2 medikament NA NA
```

]

---

# `select()`

```r
# Wähle Variablen A und B aus
TIBBLE %>% 
  select(VAR1, VAR2)

# Wähle alles ausser A aus
TIBBLE %>% 
  select(-VAR1)
```

]

```r
patienten_ergebnisse %>%
  
  # Wähle id und bedingung aus
  select(id, bedingung)
```

```
## # A tibble: 5 × 2
## id bedingung
## <dbl> <dbl>
## 1 1 1
## 2 2 2
## 3 3 2
## 4 4 1
## 5 5 2
```

]

---

# `select()`

```r
# Wähle Variablen A und B aus
TIBBLE %>% 
  select(VAR1, VAR2)

# Wähle alles ausser A aus
TIBBLE %>% 
  select(-VAR1)
```

]

```r
patienten_ergebnisse %>%
  
  # Alles ausser id
  select(-id)
```

```
## # A tibble: 5 × 5
## alter bedingung bed_label t_1 t_2
## <dbl> <dbl> <chr> <dbl> <dbl>
## 1 37 1 placebo 123 135
## 2 65 2 medikament 143 140
## 3 57 2 medikament NA NA
## 4 34 1 placebo 100 105
## 5 45 2 medikament NA NA
```

]

---

<h1><a href="https://therbootcamp.github.io/EDA_2022Mar/_sessions/Wrangling/Wrangling_practical.html">Practical</a></h1>