Predicting

class: center, middle, inverse, title-slide

# Predicting
### Maschinelles Lernen mit R <a href='https://therbootcamp.github.io'> The R Bootcamp </a> <a href='https://therbootcamp.github.io/ML_2020Apr/'> </a>  <a href='https://therbootcamp.github.io'> </a>  <a href='mailto:therbootcamp@gmail.com'> </a>  <a href='https://www.linkedin.com/company/basel-r-bootcamp/'> </a>
### April 2020

---

layout: true

<div class="my-footer">
 
 
 <img src="https://raw.githubusercontent.com/therbootcamp/therbootcamp.github.io/master/_sessions/_image/by-sa.png" height=14 style="vertical-align: middle"/>
 
 <a href="https://therbootcamp.github.io/">
 
 
 www.therbootcamp.com
 
 
 </a>
 <a href="https://therbootcamp.github.io/">
 
 Maschinelles Lernen mit R | April 2020
 
 </a>
 
 </div>

---

# Prediction...

.pull-left45[

Prediction is very difficult, especially if it's about the future.
 
Nils Bohr, Nobelpreisträger in Physik
 
An economist is an expert who will know tomorrow why the things he predicted yesterday didn't happen today.

Evan Esar, Satiriker

]

.pull-right45[

<img src="image/bohr.jpg"> 
from <a href="https://futurism.com/know-your-scientist-niels-bohr-the-father-of-the-atom">futurism.com</a>

]

---

# "Hold-out"-Daten

.pull-left45[

<ul>
 <li class="m1">Die Performanz eines Models wird i.a.R. über die Vorhersage <high>ungesehener Daten</high> evaluiert.</li> 
 <li class="m2">Die ungesehenen Daten können <high>natürlich vorkommen</high>.</li>
 <ul class="level">
 <li>zB. Aktiendaten aus 2019 für ein Modell auf Basis von Aktiendaten aus 2018</li>
 </ul> 
 <li class="m3">Meist werden die ungesehenen Daten manuell kreiert in dem die verfügbaren Daten in <high>Training und Test</high> aufgeteilt werden.</li>
</ul>

]

.pull-right45[

]

---

# Training (= Fitting)

---

# Test

---

# Warum wird Training und Test getrennt?

"Könnt ihr euch ein Modell vorstellen, das perfekten Fit im Training liefert und in der Vorhersage nutzlos ist?"

.pull-left45[

<high>Trainingsdaten</high>

| id|sex | age|fam_history |smoking | criterion|
|--:|:---|---:|:-----------|:-------|---------:|
|  1|f   |  45|No          |TRUE    |         0|
|  2|m   |  43|No          |FALSE   |         0|
|  3|f   |  40|Yes         |FALSE   |         1|
|  4|f   |  51|Yes         |TRUE    |         1|
|  5|m   |  44|Yes         |FALSE   |         0|

]

.pull-right45[

<high> Testdaten</high>

| id|sex | age|fam_history |smoking |criterion |
|--:|:---|---:|:-----------|:-------|:---------|
| 91|f   |  51|No          |FALSE   |?         |
| 92|m   |  47|No          |TRUE    |?         |
| 93|f   |  39|Yes         |TRUE    |?         |
| 94|f   |  51|Yes         |TRUE    |?         |
| 95|f   |  50|No          |TRUE    |?         |

]

---

.pull-left4[

# Overfitting

<ul>
 <li class="m1">Tritt ein, wenn ein Modell die <high>Daten zu genau fitted</high> und deswegen <high>keine guten Vorhersagen</high> liefert.</li> 
 <li class="m2">Ein zu genauer fit bedeutet, dass z.T. züfällige Tendenzen, sog. <high>Rauschen gefittet</high> wird.</li> 
 <li class="m3"><high>"Komplexere" Modelle</high> neigen mehr zu overfitting.</li>
</ul>

]

.pull-right5[
 

<img src="image/overfitting.png">

]

---

# Overfitting

---
class: center, middle

<h1><a>Zwei neue Modelle</a></h1>

---
class: center, middle

<h1>Regression</h1>

<high><h1>Decision Trees</h1></high>

<h1>Random Forests</h1>

---

# CART

.pull-left45[

<ul>
 <li class="m1">CART = Classification And Regression trees</li> 
 <li class="m2">Modelliert das Kriterium als <high>Sequenz logischer Entscheidungen</high>.</li>
</ul>

]

.pull-right45[

<img src="image/tree.png">

]

---

# Classificiation trees

.pull-left45[

<ul>
 <li class="m1">Classification und regression trees werden mit dem folgengen <high>Algorithmus</high> gefitted:</li> 
 <ul>
 <li>1 - <high>Trenne</high> Knoten so, dass <mono>purity gain</mono> (zB., Gini gain) maximiert wird.</li> 
 <li>2 - <high>Wiederhole</high> bis zu einer vordefinierten Schwelle (zB. <mono>minsplit</mono>).</li> 
 <li>3 - <high>Stutze</high> den Baum gemäss <mono>complexity parameter</mono></li>
 </ul>
</ul>

]

.pull-right45[

<img src="image/tree.png">

]

---

# Auftrennen der Knoten

.pull-left45[

<ul>
 <li class="m1">Classification trees versuchen ingesammt <highm>impurity</highm> zu minimieren.</li>
</ul>

`$$\large Gini(S) = 1 - \sum_j^kp_j^2$$`

<ul>
 <li class="m2">Durch das Auftrennen eines Knotens werden Cases so aufgeteilt, dass der resultierende <highm>purity gain</highm> maxmial ist.</li>
</ul>

`$$Gini \; gain = Gini(S) - Gini(A,S)$$`

mit

`$$Gini(A, S) = \sum \frac{n_i}{n}Gini(S_i)$$`

]

.pull-right45[

]

---

# Stutzen der Bäume

.pull-left45[

<ul>
 <li class="m1">Classification trees werden schlussendlich <high>gestutzt (pruned)</high> sodass jedes Auftrennen eines Knotens einen gain von mindestens <highm>cp</highm>.</li>
</ul>

$$
\large
`\begin{split}
Loss = & Impurity\,+\\
&cp*(n\:terminal\:nodes)\\
\end{split}`
$$

]

.pull-right45[

]
---

# Regression trees

.pull-left45[

<ul>
 <li class="m1">Regression trees <high>minimieren die Binnenvarianz der Knoten</high>, bzw. maximieren Homogenität innerhalb der Knoten.</li>
</ul>

`$$\large SSE = \sum_{i \in S_1}(y_i - \bar{y}_1)^2+\sum_{i \in S_2}(y_i - \bar{y}_2)^2$$`
<ul>
 <li class="m2">Algorithmus:</li>
 <ul>
 <li>1 - <high>Trenne</high> Knoten, sodass der grösste <high>Zugewinn an Homogenität entsteht</high>.</li> 
 <li>2 - <high>Wiederhole</high> bis zu einer vordefinierten Schwelle (zB. <mono>minsplit</mono>).</li> 
 <li>3 - <high>Stutze</high> den Baum gemäss <mono>complexity parameter</mono></li>
 <ul>
</ul>

]

.pull-right45[

]

---

# CART in <mono>caret</mono>

.pull-left4[

<ul>
 <li class="m1">Fitte einen decision tree in <mono>caret</mono> mit <highm>method = "rpart"</highm>.</li>
 <li class="m2">Wenn das <high>Kriterium ein <mono>factor</mono></high> ist, verwendet <mono>caret</mono> einen Classificaton tree, anonsten einen Regression tree</highm>.</li>
</ul>

]

.pull-right45[

```r
# Fitte einen decision tree

train(form = verzug ~ ., # factor
      data = Darlehen,
      method = "rpart",
      trControl = ctrl)

# Fitte einen regression tree

train(form = einkommen ~ ., # kein factor
      data = basel,
      method = "rpart",
      trControl = ctrl)
```

]

---
class: center, middle

<h1>Regression</h1>

<h1>Decision Trees</h1>

<high><h1>Random Forests</h1></high>

---

.pull-left45[

# Random Forest

<ul>
 <li class="m1">In Random Forests wird das Kriterium als <high>Aggregat vieler Entscheidungsbäume</high> modelliert.</li>
 <li class="m2">Algorithmus:</li>
 <ul>
 <li>1 - <high>Wiederhole</high> <mono>n</mono> mal.</li> 
 <ul>
 <li>1 - <high>Resample</high> die Daten.</li> 
 <li>2 - <high>Fitte</high> nicht-gestutzte Entscheidungsbäume. Berücksichtige bei jeder Auftrennung nur <high><mono>m</mono> Features</high>.</li> 
 </ul>
 <li>2 - <high>Mittle</high> die gefitteten Werte.</li> 
 </ul>
</ul>

]

.pull-right45[

]

---

# Random Forest

.pull-left45[

<ul>
 <li class="m1">Random Forests bedienen sich des <high>Baggings</high> (<high>Resampling</high> und <high>Averaging</high>) um höhere Vorhersageleistungen zu erzielen.</li>
</ul>

<table style="cellspacing:0; cellpadding:0; border:none;">
 <col width="30%">
 <col width="70%">
<tr>
 <td bgcolor="white">
 Element
 </td>
 <td bgcolor="white">
 Beschreibung
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 Resampling
 </td>
 <td bgcolor="white">
 Kreiert neue Datensätze die in ihrer Komposition variieren. Dabei werden <high>Eigenheiten</high> der vorhandenen Daten <high>weniger Gewicht gegeben</high>. 
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 Averaging
 </td>
 <td bgcolor="white">
 Das Kombinieren von Vorhersagen gleicht typischerweise <hoch>Eigenheiten</hoch> der aus einzelnen Datensätzen erstellten Modelle aus. 
 </td> 
</tr>
</table>
]

.pull-right45[

]

---

# Random forests in <mono>caret</mono>

.pull-left4[

<ul>
 <li class="m1">Fitte einen Random Forest in <mono>caret</mono> mit <highm>method = "rf"</highm>.</li>
 <li class="m2">Wenn das <high>Kriterium ein <mono>factor</mono></high> ist, verwendet <mono>caret</mono> Classificaton trees, anonsten einen Regression trees als Grundlage des Random Forest</highm>.</li>
</ul>

]

.pull-right45[

```r
# Fitte ein random forest

train(form = verzug ~ ., # factor
      data = Darlehen,
      method = "rf", 
      trControl = ctrl)

# Fitte ein random forest

train(form = einkommen ~ ., # kein factor
      data = basel, 
      method = "rf", 
      trControl = ctrl)
```

]

---
class: center,  middle

<h1><a>Vorhersageevaluation in <mono>caret</mono></h1>

---

# <mono>createDataPartition()</mono>

.pull-left4[

<ul>
 <li class="m1">Verwende <mono>createDataPartition()</mono> um den <high>Datensatz aufzuteilen</high> in Trainings- und Testdaten.</li>
</ul>

<table style="cellspacing:0; cellpadding:0; border:none;">
 <col width="30%">
 <col width="70%">
<tr>
 <td bgcolor="white">
 Argument
 </td>
 <td bgcolor="white">
 Beschreibung
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>y</mono>
 </td>
 <td bgcolor="white">
 Das Kriterion. Wichtig für eine <high>ausgewogene Aufteilung</high> der Daten. 
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>p</mono>
 </td>
 <td bgcolor="white">
 Der <high>Antei der Daten</high> der den Trainingsdaten zugewisen wird. Oft <mono>.8</mono> oder <mono>.5</mono>. 
 </td> 
</tr>
</table>

]

.pull-right5[

```r
# Wichtig für konstante Ergebnisse
set.seed(100)

# Indizes für Training
index <- 
 createDataPartition(y = basel$einkommen,
 p = .8,
 list = FALSE)

# Kreiere Trainingsdaten
basel_train <- basel %>% 
 slice(index)

# Kreiere Testdaten
basel_test <- basel %>% 
 slice(-index)
```

]

---

# <mono>predict(, newdata)</mono>

.pull-left4[

<ul>
 <li class="m1">Verwende <mono>predict()</mono> um auf Basis des Testdatensatzes neue Vorhersagen zu berechnen.</li>
</ul>

<table style="cellspacing:0; cellpadding:0; border:none;">
 <col width="30%">
 <col width="70%">
<tr>
 <td bgcolor="white">
 Argument
 </td>
 <td bgcolor="white">
 Beschreibung
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>object</mono>
 </td>
 <td bgcolor="white">
 <mono>caret</mono> Objekt nach dem Fitten. 
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>newdata</mono>
 </td>
 <td bgcolor="white">
 Testdaten (Muss alle Features in <mono>object</mono> beinhalten). 
 </td> 
</tr>
</table>

]

.pull-right5[

```r
# Fitte das Modell zu dne Trainingsdaten
mod <- train(form = einkommen ~ .,
 method = "glm",
 data = basel_train)

# Extrahiere die gefitteten Werte
mod_fit <- predict(mod)

# Berechne echte Vorhersagen für Testdaten
mod_pred <- predict(mod, 
 newdata = basel_test)

# Evaluiere das Ergebnis
postResample(pred = mod_pred, 
             obs = basel_test$einkommen)
```

]

---
class: middle, center

<h1><a href=https://therbootcamp.github.io/ML_2020Apr/_sessions/Prediction/Prediction_practical.html>Practical</a></h1>