Abschluss
Statistik, Prognose, Modellierung, R, Datenanalyse, Regression
Einstieg
Standort im Lernpfad
Abb. Abbildung 1.3 den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.
Lernziele
kein neuer Stoff
Ziel dieses Kapitels ist es, den Stoff des Moduls zu wiederholen und zu konsolidieren.
Benötigte R-Pakete
Benötigte Daten
data(mtcars)
Herzlichen Glückwünsch!
Herzlichen Glückwunsch - Sie haben diesen Kurs abgeschlossen! Es sei denn, Sie haben nur ein bisschen durchgeschaut. Dann war es hoffentlich zumindest interessant. 😄
Wie geht’s weiter?
Es gibt viele weiterführende Bücher und Kurse. Ein logischer nächster Schritt ist es, sich mit Inferenzstatistik zu beschäftigen. Dazu bietet sich z.B. der Kurs Start:Bayes! an, zufälligerweise aus der Feder des gleichen Autors…
Wenn Sie sich breiter (nicht tiefer) mit Data Literacy beschäftigen wollen, bietet sich der Online-Kurs des KI-Campus an.1 Es gibt viele Online-Kurse, die sich anbieten, wenn Sie im Thema moderne Datenanalyse fit werden wollen. Schauen Sie doch mal z.B. bei Anbietern wie Coursera oder ähnlichen Anbietern vorbei.2
Aufgabensammlungen
Auf dem Datenwerk finden Sie reichlich Aufgaben zur Prüfungsvorbereitung.3
U.a. folgende Tags sind für diesen Kurs relevant:
Quizze
Hier geht’s zu einem Quiz zur deskriptiven Statistik (Maße der zentralen Tendenz, Variabilität, Verteilungsformen, Normalverteilung, Korrelation).4
Fallstudien
Wenn Sie mit Aufgaben “in der Wildnis” der freien Datenanalyse zu tun haben, wird es immer wieder passieren, dass Sie auf bisher unbekannte Probleme, Methoden und Lösungen stoßen. Das kann weh tun, weil man das Gefühl hat, man kennt sich nicht gut aus. Aber lassen Sie sich nicht ins Boxhorn jagen! Auf etwas Unbekanntes zu stoßen, bedeutet nichts anderes als der Beweis, dass man lernt! Es ist also eine gute Nachricht. Denn vergessen Sie nicht: Sie machen die Fallstudien nur aus einem Grund – um zu lernen, um ihre Grenzen zu erweitern, zu wachsen, schlauer zu werden, ein Handwerk zu lernen, ihre Persönlichkeit zu entfalten. Let’s grow!
Datenvisualisierung
Fallstudien – NUR Datenvisualisierung
Explorative Datenanalyse
In diesem Abschnitt sind Fallstudien, die Methoden der deskriptiven Statistik verwenden, aufgeführt. Datenvisualisierung und Datenjudo spielt dabei auch eine (zum Teil wichtige) Rolle.
FALLSTUDIEN - NUR EXPLORATIVE DATENANALYSE
Louise E. Sinks: TidyTuesday Week 16: Neolithic Founder Crops
Case study: data vizualization on flight delays using tidyverse tools
Finde den Tag mit den meisten Flugverspätungen, Datensatz ‘nycflights13’
Cleaning and visualizing genomic data: a case study in tidy analysis
Analyse einiger RKI-Coronadaten: Eine reproduzierbare Fallstudie
Open Case Studies: School Shootings in the United States - includes dashboards
The Open Case Study Search provides a nice collection of helpful case studies.
Lineare Modelle
FALLSTUDIEN - NUR LINEARE MODELLE
Beispiel für Prognosemodellierung 1, grundlegender Anspruch, Video
Beispiel für Ihre Prognosemodellierung 2, mittlerer Anspruch
Fallstudie: Modellierung von Flugverspätungen 2023 (mittlerer Anspruch)
Fallstudie: Modellierung von Flugverspätungen 2023 (höherer Anspruch)
Fallstudie Einfache lineare Regression in Base-R, Anfängerniveau, Kaggle-Competition TMDB
Fallstudie zum Beitrag verschiedener Werbeformate zum Umsatz; eine Fallstudie in Python, aber mit etwas Erfahrung wird man den Code einfach in R umsetzen können (wenn man nicht in Python schreiben will)
Practical Linear Regression with R: A case study on diamond prices
FAQ
Werfen Sie auch einen Blick in typische R-Fragen.
SD berechnen
FRAGE: Macht es einen Unterschied, ob man dafür den Befehlt summary() oder den Befehl sd() verwendet? Bei mir kommen da nämlich unterschiedliche Zahlen raus.
ANTWORT: summary()
gibt nicht SD aus, sondern nur den IQR (IQR = Q3-Q1).
count vs. filter
FRAGE: Wann benutzt man count() und wann filter()?
ANTWORT: Mit filter
plus dem Zählen der übrig gebliebenen Zeilen erreicht man etwas Ähnliches wie mit count
:
mtcars |>
count(am)
am <dbl> | n <int> | |||
---|---|---|---|---|
0 | 19 | |||
1 | 13 |
1000
FRAGE: gibt es einen Unterschied zwischen 10^3 und 1e3? Es kommen nämlich unterschiedliche Ergebnisse raus.
ANTWORT: Nein, beide Schreibweisen meinen das Gleiche, nämlich die Zahl 1000.
10^3 == 1000
1e3 == 1000
## [1] TRUE
## [1] TRUE
Literaturhinweise
Diese Literaturliste empfiehlt Ihnen Lehrbücher zu grundlegenden Themen der Datenanalyse (mit R).6