Features

# Features
### Maschinelles Lernen mit R <a href='https://therbootcamp.github.io'> The R Bootcamp </a> <a href='https://therbootcamp.github.io/ML_2020Oct/'> </a>  <a href='https://therbootcamp.github.io'> </a>  <a href='mailto:therbootcamp@gmail.com'> </a>  <a href='https://www.linkedin.com/company/basel-r-bootcamp/'> </a>
### Oktober 2020

---

<div class="my-footer">
 
 
 <img src="https://raw.githubusercontent.com/therbootcamp/therbootcamp.github.io/master/_sessions/_image/by-sa.png" height=14 style="vertical-align: middle"/>
 
 <a href="https://therbootcamp.github.io/">
 
 
 www.therbootcamp.com
 
 
 </a>
 <a href="https://therbootcamp.github.io/">
 
 Maschinelles Lernen mit R | Oktober 2020
 
 </a>
 
 </div>

---

# Feature Probleme

<ul>
 <li class="m1">Zu viele Features</li>
 <ul class="level">
 <li>Fluch der <high>Dimensionalität</high></li>
 <li>Feature <high>Wichtigkeit</high></li>
 </ul> 
 <li class="m2">Falsche Features
 <ul class="level">
 <li><high>Skalierung</high> der Features</li>
 <li><high>Korrelation</high> der Features</li>
 <li><high>Qualität</high> der Features</li>
 </ul>
 <li class="m3">Neue Features kreieren
 <ul class="level">
 <li><high>"Engineerig"</high> der Features</li>
 </ul>
 </li>
</ul>

]

]

---

# Fluch der Dimensionalität

<ul>
 <li class="m1">Dichte</li>
 <ul class="level">
 <li>Die Menge der Fälle, die notwendig sind um den <high>Datenraum abzudecken</high> steigt exponentiell mit der Menge der Features.</li>
 </ul> 
 <li class="m2">Redundanz</li>
 <ul class="level">
 <li>Redundanz zwischen den Features steigt i.a.R. mit der Anzahl der Features, was zu <high>Unsicherheiten</high> in der Schätzung führt.</li>
 </ul> 
 <li class="m3">Effizienz</li>
 <ul class="level">
 <li>Mit der Menge der Feature steigt i.a.R die Anzahl der <high>Parameter</high> und damit auch i.a.R die benötigten <high>komputationalen Ressourcen</high>.</li>
 </ul>
 </li>
</ul>

]

<img src="image/cod.png"> 
from <a href="https://medium.freecodecamp.org/the-curse-of-dimensionality-how-we-can-save-big-data-from-itself-d9fa0f872335?gi=6e6735e00188">medium.freecodecamp.org</a>

]

---

# Wie Dimensionalität reduzieren?

<ul>
 <li class="m1">Manuelle Selektion</li>
 <ul class="level">
 <li>Features können manuell auf Basis <high>statistischer</high> oder <high>theoretischer Gesichtspunkte</high> ausgewählt werden.</li>
 </ul> 
 <li class="m2">Automatische Selektion</li>
 <ul class="level">
 <li>Verwende <high>Modelle</high> die automatisch Features selegieren, z.B., Lasso Regression, oder Algorithmen für Featureselektion</li>
 </ul> 
 <li class="m3">Automatische Reduktion</li>
 <ul class="level">
 <li>Reduziere die Dimensionalität mit Methoden der <high>Dimensionsreduktion</high>, z.B. mit Principal Component Analysis (PCA).</li>
 </ul>
 </li>
</ul>

]

<img src="image/highd.jpeg" height=350>
from <a href="">Interstellar</a>

]

---

# Feature-Wichtigkeit

<ul>
 <li class="m1">Mass für die Bedeutung eines Features <high>für Fit/Vorhersage der Daten</high>.</li>
 <li class="m2"><mono>caret</mono> berechnet die Feature-Wichtigkeit <high>Modell-spezifisch und skaliert</high> sie auf Werte innerhalb <mono>[0, 100]</mono></li>
 <li class="m3">Strategien</li>
 <ul class="level">
 <li><high>1-Feature</high> Modelle (z.B. <mono>LOESS</mono>)</li>
 <li>Loss durch <high>Scrambling</high></li>
 <li>Wichtigkeit in <high>komplexen Modellen</high> (z.B. Random Forest)</li>
 <li>etc.</li>
 </ul>
</ul>

]

```r
# Plotte Feature-Wichtigkeit für lm(einkommen ~ .)
plot(varImp(einkommen_lm))
```

]

---

# `varImp()`

<ul>
 <li class="m1">Die <mono>varImp()</mono> Funktion liefert <high>Modell-spezifische Schätzungen</high> der Feature-Wichtigkeit.</li>
</ul>

```r
varImp(einkommen_lm)
```

```
lm variable importance

Overall
alter   100.000
essen    44.486
glueck   27.924
alkohol  22.938
tattoos   5.414
gewicht   4.086
fitness   3.383
groesse   1.552
```

]

```r
# Plotte Feature-Wichtigkeit für lm(einkommen ~ .)
plot(varImp(einkommen_lm))
```

]

---

# `rfe()`

<ul>
 <li class="m1">Die rekursive Featureselektion <mono>rfe()</mono> verwendet <high>Cross-Validation</high> um die besten n Features zu identifizieren.</li>
 <li class="m2">Algorithmus</li>
 <ol>
 <li><high>Kandidatenset</high> <mono>n = [2, 3, 5, 10]</mono>.</li>
 <li>Wiederholtes <high>Resampling</high> und Aufteilen der Daten.</li>
 <li>Evaluiere <high>Vorhersageleistung</high> für jeweils die besten <mono>n</mono> Features.</li>
 <li>Selegiere bestes <mono>n</mono> auf Basis der <high>aggregierten Vorhersageleistung</high>.</li>
 </ol>
</ul>

]

```r
# Rekursive Featureselektion
rfe(x = ..., y = ..., 
    sizes = c(3, 4, 5, 10), # Kandidaten für N
    rfeControl = rfeControl(functions = lmFuncs))
```

```

Recursive feature selection

Outer resampling method: Bootstrapped (25 reps)

Resampling performance over subset size:

Variables  RMSE Rsquared   MAE RMSESD RsquaredSD   MAESD Selected
         3 0.380    0.850 0.305 0.0129     0.0127 0.00940         
         4 0.361    0.864 0.293 0.0111     0.0113 0.00787        *
         5 0.362    0.863 0.295 0.0115     0.0114 0.00803         
        10 0.364    0.862 0.296 0.0108     0.0110 0.00778         
        14 0.364    0.862 0.296 0.0109     0.0112 0.00781

The top 4 variables (out of 4):
   alter, essen, alkohol, glueck
```

]

---

# Principal component analysis

<ul>
 <li class="m1"><high>Standardmodell</high> für Dimensionsreduktion.</li> 
 <li class="m2">Lineares Modell (Regression) repräsentiert die Features in einem <high>neuen, kleineren Featureraum</high>.</li> 
 <li class="m3">Der neue Featureraum erklärt <high>maximal viel Varianz</high> an den ursprünglichen Features.</li>
</ul>

]

<img src="image/pca.png" height=350>
from <a href="https://blog.umetrics.com/what-is-principal-component-analysis-pca-and-how-it-is-used
">blog.umetrics.com</a>

]

---

# `preProc = c('pca')`

```r
# Trainiere Modell OHNE PCA
model = train(einkommen ~ ., method = 'lm', 
           data = bas_train)

plot(varImp(model))
```

]

```r
# Trainiere Modell MIT PCA
model = train(einkommen ~ ., method = 'lm', 
              data = bas_train,
              preProc = c('pca'))
plot(varImp(model))
```

]

---

# Andere, einfache Feature Probleme

### Multikollinearität

<ul>
 <li class="m1">Unter Multikollinearität korrelieren Features zu stark, was in schädlicher Redundanz, <high>instabilen Fits resultiert</high>, und zu <high>schlechteren Vorhersagen führt</high>.</li>
</ul>

```r
# Identifiziere redundante Features
findCorrelation(cor(basel))
```

```
[1] 5
```

```r
# Entferne redundante Features
remove <- findCorrelation(cor(basel))
basel <- basel %>%
 select(-remove)
```

]

### Ungleiche oder zu niedrige Varianz

<ul>
 <li class="m2">Ungleiche Varianzen <high>verzerren</high> Methoden, die gleiche Varianz erwarten (z.B. LASSO).</li>
</ul>

```r
# Standardisiere Features
train(..., preProc = c("center", "scale"))
```

<ul>
 <li class="m3">Features ohne "Varianz" tragen nicht zur Vorhersage bei, aber <high>vergrössern die Komplexität des Modells.</li>
</ul>

```r
# Identifiziere Feature ohne Varianz
nearZeroVar(basel)
```

```
integer(0)
```

]

---

# Schwierige Feature Probleme

<ul>
 <li class="m1">Triviale Features</li>
 <ul>
 <li>Erfolgreiche Vorhersage bedeutet nicht, dass ein <high>bedeutsames Muster</high> identifiziert wurde</li>
 </ul> 
 <li class="m2">Fehlende Features</li>
 <ul>
 <li>Erfolgreiche Vorhersage basiert i.d.R. auf der Entwicklung <high>neuer, relvanterer Features</high>.</li> 
 </ul>
</ul>

]

]

---

# Triviale Features

<a href="https://www.gwern.net/Tanks">Ein urban myth?!</a>

"The Army trained a program to differentiate American tanks from Russian tanks with 100% accuracy. Only later did analysts realize that the American tanks had been photographed on a sunny day and the Russian tanks had been photographed on a cloudy day. The computer had learned to detect brightness." 
New York Times <a href="https://www.nytimes.com/2017/10/09/science/stanford-sexual-orientation-study.html" style="font-size:8px">[Full text]</a>

]

<img src="image/tank.jpg">
from <a href="https://en.wikipedia.org/wiki/British_heavy_tanks_of_World_War_I#/media/File:Mark_I_series_tank.jpg">wikipedia.org</a>

]

<!---

# Triviale Features

In 2012 sagte [Nate Silver](https://en.wikipedia.org/wiki/Nate_Silver) die Ausgänge der Präsidentschaftswahlen in 50 Staaten voraus, nachdem er dies für 49 Staaten in 2008 getan hat. <high>Wie ist dieser Erfolg zu bewerten?</high>

]

]

--->

---

# (Immer!) fehlende Features

"…some machine learning projects succeed and some fail. What makes the difference? <high>Easily the most important factor is the features used</high>."

[Pedro Domingos](https://en.wikipedia.org/wiki/Pedro_Domingos)

"The algorithms we used are very standard for Kagglers. […] <high>We spent most of our efforts in feature engineering</high>. [...] We were also very careful to discard features likely to expose us to the risk of over-fitting our model."

[Xavier Conort]()

"Coming up with features is difficult, time-consuming, requires expert knowledge. <high>Applied machine learning is basically feature engineering</high>."

[Andrew Ng](https://en.wikipedia.org/wiki/Andrew_Ng)

]

---

# Feature Engineering

“Feature engineering is the process of <high>transforming raw data</high> into features that <high>better represent the underlying problem</high> to the predictive models, resulting in improved model accuracy on unseen data.”

[Jason Brownlee]()

"...while avoiding the <high>curse of dimensionality</high>."

[duw]()

]

]

---

# <mono>createDataPartition()</mono>

<ul>
 <li class="m1">Verwende <mono>createDataPartition()</mono> um den <high>Datensatz aufzuteilen</high> in Trainings- und Testdaten.</li>
</ul>

<table style="cellspacing:0; cellpadding:0; border:none;">
 <col width="30%">
 <col width="70%">
<tr>
 <td bgcolor="white">
 Argument
 </td>
 <td bgcolor="white">
 Beschreibung
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>y</mono>
 </td>
 <td bgcolor="white">
 Das Kriterion. Wichtig für eine <high>ausgewogene Aufteilung</high> der Daten. 
 </td> 
</tr>
<tr>
 <td bgcolor="white">
 <mono>p</mono>
 </td>
 <td bgcolor="white">
 Der <high>Antei der Daten</high> der den Trainingsdaten zugewisen wird. Oft <mono>.8</mono> oder <mono>.5</mono>. 
 </td> 
</tr>
</table>

]

```r
# Wichtig für konstante Ergebnisse
set.seed(100)

# Indizes für Training
index <- 
 createDataPartition(y = basel$einkommen,
 p = .8,
 list = FALSE)

# Kreiere Trainingsdaten
basel_train <- basel %>% 
 slice(index)

# Kreiere Testdaten
basel_test <- basel %>% 
 slice(-index)
```

]

---

<h1><a href="https://therbootcamp.github.io/ML_2020Oct/_sessions/Features/Features_practical.html">Practical</a></h1>