from uber.com

Überblick

Beweist eure Datawrangling- und visualisierungsskills in einem Wettbewerb zur Explorativen Datenanalyse. Grabt tief in einen Datensatz um die beste, entscheidungsrelevanteste Graphik zu erstellen und damit 🍫🍫🍫 zu gewinnnen.

Der Wettbewerb endet in…




Auftrag

Christoph Brutschin, Vorsteher des Departments für Wirtschaft, Soziales und Umwelt, und damit im Basler Regierungsrat verantworlich für das Thema Tourismus, ging es schon mal besser. In ein paar Stunden müsste er Elisabeth Ackerman, Vorsteherin des Präsidialamts, den jährlichen Tourismusbericht präsentieren und die Zahlen waren nicht was er sich erhofft hatte. Trotz aller Bemühungen waren von 2018 bis 2019 die Besucherzahlen um satte 4.1% gesunken. Christoph Brutschin hatte keine gute Erklärung für die Veränderung, aber er wusste, dass es darum jetzt auch gar nicht mehr ging. Alles was zählte war, dass er eine Werbestrategie parat hätte wie sich in 2020 die Besucherzahlen wieder steigern liessen und er wusste genau an wen er sich dafür wendet musste. Kürzlich hatte der Basler Regierungsrat eine ihm unterstellte Data Science Unit geschaffen, die es verstand in autemberaubenden Tempo die komplexesten Daten in unmittelbar entscheidungsrelevante Erkenntnisse und inhaltlich überzeugende und ästhetisch ansprechende Abbildungen zu übersetzen. Als Mitglied der Basler Data Science Unit ist es nun deine Aufgabe einem sichtlich nervösen Christoph Brutschin zu liefern was er braucht: Die eine Graphik, die sofort klarmacht an welche Besuchergruppen die Werbebemühungen fürs kommende Jahr zu richten sind.

P.S. Stellt Euch vor Corona wäre nicht passiert.

(Namen, Organisationen, und Orte sind Produkt der Imagination des Autors. Jede Ähnlichkeit zu existierenden Personen ist absolut zufällig.)

A - Vorbereitung

  1. Öffne dein TheRBootcamp R project. Es sollte die Ordner 1_Data und 2_Code enthalten. Stelle sicher, dass du alle Datensätze, welche im Datensätze Tab aufgelisted sind, in deinem 1_Data Ordner hast.

  2. Öffne ein neues R Skript. Schreibe deinen Namen, das Datum und “Explorative Datenanalyse Wettbewerb” als Kommentare an den Anfang des Skripts.

  3. Speichere das neue Skript unter dem Namen wettbewerb_practical.R im 2_Code Ordner.

  4. Lade das tidyverse Paket und alle weiteren Pakete, die du verwenden möchtest.

  5. Lade die beiden Datensätze Tourismus.csv und Europa.csv.

B Wettbewerbsregeln

  1. Das Ziel des Wettbewerbs ist es die schönste, überzeugenste, entscheidungsrelevanteste Graphik zu erstellen, die beantwortet auf welche Besuchergruppen die Basler Tourismuswerbestrategie fokussieren sollte.

  2. Am Wettbewerb teilzunehmen ermöglicht dir die Chance viel 🍫🍫🍫 zu gewinnen.

  3. Die nimmst am Wettbewerb teil indem du deine beste Graphik im .png Format und das zugehörige R Script einreichst.

  4. Vor dem Einreichen, speichere deine Graphik mittels ggsave() (siehe code) und benenne die Datei mit einem von dir ausgewählten Pseudonym. Benutze das Pseudonym ebenfalls im Namen der .R Skriptdatei.

# speichere plot
ggsave(filename = "plot_PSEUDONYM.png",
       plot = mein_plot,
       device = "png",       
       units = 'in',
       width = 5,         # ggf. vergrössern/verkleinern
       height = 5         # ggf. vergrössern/verkleinern
       )
  1. Reiche deine Beitrag ein indem Du dein Skript, eine Abbildung, und ein selbstgewähltes Pseudonym an unsere Mail Adresse schickst.

  2. Jeder Beitrag wird beurteilt duch eine Jury bestehend aus den Kursteilnehmern. Der Beitrag mit den meisten Punkten gewinnt.

Wichtig: Entscheidend für den Erfolg ist nicht nur die Ästhetik der Graphik, sondern auch die gewonnenen Erkenntnisse die darin dargestellt sind. Dafür kann es notwendig sein die beiden Datensätze gemeinsam zu analysieren.

Rating

Bitte rated die einzelnen Beiträge über diesen Link (noch nicht aktiv).

Beispiel

require(tidyverse)
require(ggthemes)

# Erstelle plot
mein_plot <- read_csv('1_Data/Tourismus.csv') %>%
  inner_join(read_csv('1_Data/Europa.csv')) %>%
  ggplot(aes(x = Besucher, 
             y = Dauer, 
             color = Land)) + 
  geom_point() + 
  facet_wrap(~Erwerbsquote < 70) +
  theme_excel()

# Speichere plot als png
ggsave(filename = 'plot_DOZENTEN.png',
       plot = mein_plot,
       device = "png",
       units = "in",
       width = 7,
       height = 5)

Datensätze

Datei Zeilen Spalten
Tourismus.csv 141 5
Europa.csv 45 9
Variablenbeschreibungen Tourismus.csv
Name Bedeutung
Land Land in dem die Besucher wohnhaft sind.
Region Region des Landes.
Jahr Jahr der Besucherzählung: 2018 oder 2019.
Besucher Anzahl der Besucher.
Dauer Durchschnittliche Dauer des Besuchs.
Variablenbeschreibungen Europa.csv
Name Bedeutung
Land Land in dem die Besucher wohnhaft sind
Bevölkerung Bevölkerunggrösse des Landes.
Dichte Einwohner pro km2
lo20 % Einwohner unter 20 Lebensjahren.
hi65 % Einwohner über 65 Lebensjahren.
Erwerbsquote % Einwohner mit Beschäftigung.
BIP Bruttoinlandsprodukt des Landes.
Motorisierung Anzahl Autos pro 1,000 Einwohner.
Äquivalenzeinkommen Kaufkraftbereinigtes durchschnittliches Jahreseinkommen in Euro.