Explorative Datenanalyse The R Bootcamp |
from uber.com
Beweist eure Datawrangling- und visualisierungsskills in einem Wettbewerb zur Explorativen Datenanalyse. Grabt tief in einen Datensatz um die beste, entscheidungsrelevanteste Graphik zu erstellen und damit 🍫🍫🍫 zu gewinnnen.
Der Wettbewerb endet in…
Christoph Brutschin, Vorsteher des Departments für Wirtschaft, Soziales und Umwelt, und damit im Basler Regierungsrat verantworlich für das Thema Tourismus, ging es schon mal besser. In ein paar Stunden müsste er Elisabeth Ackerman, Vorsteherin des Präsidialamts, den jährlichen Tourismusbericht präsentieren und die Zahlen waren nicht was er sich erhofft hatte. Trotz aller Bemühungen waren von 2018 bis 2019 die Besucherzahlen um satte 4.1% gesunken. Christoph Brutschin hatte keine gute Erklärung für die Veränderung, aber er wusste, dass es darum jetzt auch gar nicht mehr ging. Alles was zählte war, dass er eine Werbestrategie parat hätte wie sich in 2020 die Besucherzahlen wieder steigern liessen und er wusste genau an wen er sich dafür wendet musste. Kürzlich hatte der Basler Regierungsrat eine ihm unterstellte Data Science Unit geschaffen, die es verstand in autemberaubenden Tempo die komplexesten Daten in unmittelbar entscheidungsrelevante Erkenntnisse und inhaltlich überzeugende und ästhetisch ansprechende Abbildungen zu übersetzen. Als Mitglied der Basler Data Science Unit ist es nun deine Aufgabe einem sichtlich nervösen Christoph Brutschin zu liefern was er braucht: Die eine Graphik, die sofort klarmacht an welche Besuchergruppen die Werbebemühungen fürs kommende Jahr zu richten sind.
P.S. Stellt Euch vor Corona wäre nicht passiert.
(Namen, Organisationen, und Orte sind Produkt der Imagination des Autors. Jede Ähnlichkeit zu existierenden Personen ist absolut zufällig.)
Öffne dein TheRBootcamp
R project. Es sollte die Ordner 1_Data
und 2_Code
enthalten. Stelle sicher, dass du alle Datensätze, welche im Datensätze
Tab aufgelisted sind, in deinem 1_Data
Ordner hast.
Öffne ein neues R Skript. Schreibe deinen Namen, das Datum und “Explorative Datenanalyse Wettbewerb” als Kommentare an den Anfang des Skripts.
Speichere das neue Skript unter dem Namen wettbewerb_practical.R
im 2_Code
Ordner.
Lade das tidyverse
Paket und alle weiteren Pakete, die du verwenden möchtest.
Lade die beiden Datensätze Tourismus.csv
und Europa.csv
.
Das Ziel des Wettbewerbs ist es die schönste, überzeugenste, entscheidungsrelevanteste Graphik zu erstellen, die beantwortet auf welche Besuchergruppen die Basler Tourismuswerbestrategie fokussieren sollte.
Am Wettbewerb teilzunehmen ermöglicht dir die Chance viel 🍫🍫🍫 zu gewinnen.
Die nimmst am Wettbewerb teil indem du deine beste Graphik im .png
Format und das zugehörige R Script einreichst.
Vor dem Einreichen, speichere deine Graphik mittels ggsave()
(siehe code) und benenne die Datei mit einem von dir ausgewählten Pseudonym. Benutze das Pseudonym ebenfalls im Namen der .R
Skriptdatei.
# speichere plot
ggsave(filename = "plot_PSEUDONYM.png",
plot = mein_plot,
device = "png",
units = 'in',
width = 5, # ggf. vergrössern/verkleinern
height = 5 # ggf. vergrössern/verkleinern
)
Reiche deine Beitrag ein indem Du dein Skript, eine Abbildung, und ein selbstgewähltes Pseudonym an unsere therbootcamp@gmail.com Mail Adresse schickst.
Jeder Beitrag wird beurteilt duch eine Jury bestehend aus den Kursteilnehmern. Der Beitrag mit den meisten Punkten gewinnt.
Wichtig: Entscheidend für den Erfolg ist nicht nur die Ästhetik der Graphik, sondern auch die gewonnenen Erkenntnisse die darin dargestellt sind. Dafür kann es notwendig sein die beiden Datensätze gemeinsam zu analysieren.
Bitte rated die einzelnen Beiträge über diesen Link (noch nicht aktiv).
require(tidyverse)
require(ggthemes)
# Erstelle plot
mein_plot <- read_csv('1_Data/Tourismus.csv') %>%
inner_join(read_csv('1_Data/Europa.csv')) %>%
ggplot(aes(x = Besucher,
y = Dauer,
color = Land)) +
geom_point() +
facet_wrap(~Erwerbsquote < 70) +
theme_excel()
# Speichere plot als png
ggsave(filename = 'plot_DOZENTEN.png',
plot = mein_plot,
device = "png",
units = "in",
width = 7,
height = 5)
Datei | Zeilen | Spalten |
---|---|---|
Tourismus.csv | 141 | 5 |
Europa.csv | 45 | 9 |
Tourismus.csv
Name | Bedeutung |
---|---|
Land |
Land in dem die Besucher wohnhaft sind. |
Region |
Region des Landes. |
Jahr |
Jahr der Besucherzählung: 2018 oder 2019 . |
Besucher |
Anzahl der Besucher. |
Dauer |
Durchschnittliche Dauer des Besuchs. |
Europa.csv
Name | Bedeutung |
---|---|
Land |
Land in dem die Besucher wohnhaft sind |
Bevölkerung |
Bevölkerunggrösse des Landes. |
Dichte |
Einwohner pro km2 |
lo20 |
% Einwohner unter 20 Lebensjahren. |
hi65 |
% Einwohner über 65 Lebensjahren. |
Erwerbsquote |
% Einwohner mit Beschäftigung. |
BIP |
Bruttoinlandsprodukt des Landes. |
Motorisierung |
Anzahl Autos pro 1,000 Einwohner. |
Äquivalenzeinkommen |
Kaufkraftbereinigtes durchschnittliches Jahreseinkommen in Euro. |