6  Punktmodelle 1

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

6.1 Einstieg

In diesem Kapitel benötigen Sie die üblichen R-Pakete (tidyverse, easystats) und Daten (mariokart), s. .

mariokart <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")

6.1.1 Lernziele

  • Sie können gängige Arten von Lagemaße definieren.
  • Sie können erläutern, inwiefern man ein Lagemaß als ein Modell hernehmen kann.
  • Sie können Lagemaße mit R berechnen.

6.2 Mittelwert als Modell

Der “klassische” Mittelwert (das arithmetische Mittel) ist ein prototypisches Beispiel für ein Modell in der Statistik.

Übungsaufgabe 6.1 Welche Vorstellung haben Sie, wenn Sie hören, dass der “typische deutsche Mann” 1.80 m groß ist (vgl. )?

  1. Die Hälfte der Männer ist größer als 1.80 m, die andere Hälfte kleiner.
  2. Das arithmetische Mittel der Männer beträgt 1.80 m.
  3. Die meisten Männer sind 1.80 m groß.
  4. Etwas anderes.
  5. Keine Ahnung!

Übungsaufgabe 6.2 Laut dem Statistischen Bundesamt () beträgt der Wert der mittleren Größe deutscher Frauen etwa 1.66 m, also 14 cm weniger als bei Männern.

Ist das viel?

  1. ja
  2. nein
  3. kommt drauf an
  4. weiß nicht

Auf diese Frage gibt es keine Antwort, zumindest nicht ohne weitere Annahmen. So könnte man z.B. sagen, “mehr als 5 cm sind viel”. So eine Entscheidung ist aber keine statistische Angelegenheit, sondern eine inhaltliche.

Beispiel 6.1 (Beispiel zum Mittelwert) Ein Statistikkurs besteht aus drei Studentinnen: Anna, Berta und Carla. Sie haben gerade ihre Noten in der Klausur erfahren. Anna hat eine 1, Berta eine 2 und Carla eine 3. Der Durchschnitt (das arithmetische Mittel, ) beträgt: 2.

🧑‍🎓 Zu easy!

🧑‍🏫 Schon gut! Chill mal. Wird gleich spannender.

Die Rechenregel zum Mittelwert lautet:

  1. Addiere alle Werte
  2. Teile durch die Anzahl der Werte
  3. Fertig!

Etwas abstrakter kann man in folgendem Schaubild darstellen, s. .

Abbildung 6.1: Visualisierung von

Das Beispiel zeigt uns: Der Mittelwert eines Vektors X ist die Zahl, die n mal multipliziert, gleich ist mit der Summe der n Elemente von X. Der Nutzen des Mittelwerts liegt darin, dass er uns ein Bild gibt (ein Modell ist!) für die “typische Note” im Statistikkurs, s. .

Abbildung 6.2: Der Mittelwert als “typisches Element” eines Vektors

Der Nutzen des Mittelwerts liegt darin, dass er einen Vektor (eine “Datenreihe”) zu einen “typischen Vertreter” zusammenfasst. Er ist typisch in dem Sinne, als dass die Werte aller Merkmalsträger in gleichem Maße einfließen. Er gibt uns eine (mögliche) Vorstellung (ein Modell!), wie wir uns die Werte der Datenreihe vorstellen sollen. Eine nützliche Anschauung zum Mittelwert ist die Vorstellung des Mittelwerts als eine ausbalancierte Wippe, s. . In “Mathe-Sprech” bezeichnet man den Mittelwert häufig mit x¯ und schreibt die Rechenregel so, s. .

Abbildung 6.3: Mittelwert als ausbalancierte Wippe mit Mittelwert 3 ()

(6.1)x¯:=1ni=1nxi=x1+x2++xnn

Definition 6.1 (Mittelwert) Der Mittelwert (MW, mean) von X (präziser: das arithmetische Mittel des Merkmals X) ist definiert als die Summe der Elemente von X geteilt durch deren Anzahl, n. Den Mittelwert von X bezeichnet man auch mit x¯.

Beispiel 6.2 Angenommen, wir haben eine Reihe von Noten: 1, 2, 3. Der Mittelwert der Noten beträgt dann 2: X¯=13(1+2+3)=6/3=2.

Da der Mittelwert eine zentrale Rolle spielt in der Statistik, sollten wir ihn uns noch etwas genauer anschauen. In s. sehen wir die Noten von (dieses Mal) vier Studentinnen. Die gestrichelte horizontale Linie zeigt den Mittelwert der vier Noten. Die schwarzen Punkte sind die Daten, in dem Fall die einzelnen Noten. Die vertikalen Linien zeigen die Abweichungen der Noten zum Mittelwert.

Bezeichnen wir die Abweichung – auch als “Fehler”, “Rest” oder “Residuum” bezeichnet – der i-ten Person mit ei (e wie engl. error, Fehler) und die i-te Note mit yi, so können wir mit festhalten:

(6.2)yi=x¯+ei

Anders ausgedrückt (s. ):

(6.3)Daten=Modell+Rest

Der Mittelwert ist hier unser Modell der Daten. Wie gesagt: Ein Modell ist eine vereinfachte (zusammengefasste) Beschreibung einer Datenreihe. Um Modelle darzustellen, wird in der Datenanalyse häufig folgende Art von Modellgleichung verwendet, s. .

(6.4)y^ x

Lies: “Der Modellwert y^ ist eine Funktion der Variable x”. Der Kringel “~” soll also hier heißen “… ist eine Funktion von …”. Das “Kringel” oder die “Welle” ~ nennt man auch “Tilde”.

Mit y^ ist die vorhergesagte bzw. die zu erklärende Variable (synonym: AV, Output-Variable, Zielvariable) gemeint. Das “Dach” über dem y bedeutet “vorhergesagter Y-Wert” oder “Y-Wert laut dem Modell”. Der tatsächliche, beobachtete Wert y setzt sich zusammen aus dem Modellwert m plus einem Fehler e, s. .

(6.5)y=m+e

Anstelle von m schreibt man auch y^ (“y-Dach”). In diesem Fall ist das Modell einfach gleich dem Mittelwert (und nicht irgendeiner Funktion des Mittelwerts), so dass wir mit schreiben können:

(6.6)y=x¯+e

Die Zielvariable y wird also durch ihren eigenen Mittelwert erklärt, außer gehen wir von einem Fehler e in unseren Modellvorhersagen aus. Nobody is perfect. In späteren Kapiteln werden wir andere Variablen heranziehen, um die Zielvariable zu erklären. Würden wir z.B. sagen wollen, dass wir y als Funktion einer Variable X erklären, so würden wir schreiben (s. ):

(6.7)y¯ x

Da wir im Moment aber keine andere Variablen bemühen, um y zu erklären, schreibt man mit auch:

(6.8)y¯1

Diese Schreibweise sieht anfangs verwirrend aus. Die 1 soll aber nur zeigen, dass wir keine andere Variable zur Erklärung von y verwenden, daher steht hier kein Buchstabe, sondern eine einfache 1. Der mathematische Hintergrund liegt in der Art, wie man Matrizen multipliziert.

Beispiel 6.3 (Noten, Mittelwert und Abweichung) Vier Studentinnen – Anna, Berta, Carl, Dani – haben ihre Statistik-Klausur zurückbekommen (Schluck). Die Noten sehen Sie in ; gar nicht so schlecht ausgefallen. Außerdem ist der Mittelwert (gestrichelte horizontale Linie) sowie die Abweichungen Residuen, Fehler; häufig mit e wie error bezeichnet) der einzelnen Noten vom Mittelwert eingezeichnet.

Schauen Sie sich die Abweichungsbalken ( in einmal genauer an. Jetzt stellen Sie sich vor, Sie würden die vom Mittelwert nach oben ragenden Balkenlängen aneinanderlegen (das sind die gestrichelten. Können Sie sich das vorstellen? Jetzt legen Sie auch noch die Abweichungsbalken, die nach unten ragen, aneinander (die mit den durchgezogenen Linien). Wer viel Phantasie hat, erkennt (sieht), dass die Gesamtlänge der “nach oben ragenden Balken” identisch ist zur Gesamtlänge der nach “unten ragenden Balken”, vgl. . drückt das präziser und ohne Ihre Phantasie zu strapazieren aus.

(6.9)i=1n(xix¯)=i=1nxii=1nx¯=nx¯nx¯=0

Wie man in sieht, ist die Summe der Abweichungen vom Mittelwert Null.

Abbildung 6.4: Der Mittelwert als horizontale (gestrichelte) Linie. Die vertikalen Linien zeigen die Abweichungen der einzelnen Werte zum Mittelwert. Die Abweichungen summieren sich zu Null auf.

Übungsaufgabe 6.3 Was schätzen Sie, wie hoch das mittlere Vermögen (arithmetisches Mittel) der Haushalte in Deutschland in etwa ist (im Jahr 2021 auf Basis einer Umfrage) ()?

  1. 50.000 Euro
  2. 100.000 Euro
  3. 150.000 Euro
  4. 200.000 Euro
  5. 300.000 Euro

Beispiel 6.4 (Der wertvollste Fußballer der Welt in Ihrem Hörsaal) Kommt der wertvollste Fußballspieler der Welt in Ihren Hörsaal, sagen wir, es ist Kylian Mbappé (). Sein Jahreseinkommen (2023) liegt bei ca. 120 Millionen Euro (). Der Fußballer ist gut gelaunt:

🦹 Hey Leute, wie geht’s denn so! Wie viel Kohle verdient ihr eigentlich so?

🧑‍🎓 Äh, wir studieren und verdienen fast nix!

Die 100 Studis im Hörsaal schauen verdattert aus der Wäsche: Was ist das für eine komische Frage!? Aber zumindest verteilt der Fußballspieler Autogramme.

Übungsaufgabe 6.4 (Mittleres Einkommen im Hörsaal, mit Kylian Mbappé) Schätzen Sie – im Kopf – das mittlere Vermögen im Hörsaal, gehen Sie davon aus, dass alle der 100 Studierenden jeweils 1000 Euro im Jahr verdienen.

In R kann man das mittlere Einkommen (präziser: das arithmetische Mittel des Einkommens) wie folgt berechnen, s. . (Die Details der Syntax, z.B. der Befehl rep, sind von geringer Bedeutung.)

Listing 6.1: Wir simulieren Einkommen von 100 Studis plus Mbappé.
set.seed(42)  # Zufallszahlen festlegen, hier nicht so wichtig
einkommen_studis <- rep(x = 1000, times = 100)  # "rep" wie "repeat": wiederhole 1000 USD 100-mal
einkommen <- c(einkommen_studis, 120*1e6)  # 100 Studis mit 1000, 1 Mbappé mit 120 Mio
einkommen_mw <- mean(einkommen)
einkommen_mw
## [1] 1189109
Hinweis

1 Million hat 6 Nullen hinter der führenden Eins: 1000000. In Taschenrechner- oder Computerschreibweise: 1 Mio = 1e6, das 1e6 ist zu lesen als “1 Mal 10 hoch 6, also mit 6 im Exponenten”.

Der Mittelwert im Hörsaal beträgt also 1,189,109 Euro, etwas mehr als eine Million. Ist das ein gutes Modell für das typische Vermögen im Hörsaal?

6.2.1 Der Mittelwert als lineares Modell

Man kann den Mittelwert als Gerade einzeichnen, s. , bzw. als Gerade begreifen. Insofern kann man vom Mittelwert auch als lineares Modell sprechen.

Definition 6.2 (Lineares Modell) Ein lineares Modell beschreibt die Daten durch eine Gerade. Es erklärt die Daten anhand einer Geraden.

(a) Mit Extremwerten
(b) Ohne Extremwerte (<100 Euro)
Abbildung 6.5: Der mittlere Preis von Mariokart-Spielen als horizontale Gerade eingezeichnet; einmal mit Extremwerte (a), einmal ohne (b).

zeigt den Mittelwert des Verkaufspreises der Mariokart-Spiele (total_pr), einmal mit (farbig markierten) Extremwerten (a) bzw. einmal ohne Extremwerte (b).

Definition 6.3 (Extremwert) Ein Extremwert (Ausreißer; outlier) ist eine Beobachtung, deren Wert deutlich vom Großteil der anderen Beobachtungen im Datensatz abweicht, z.B. viel größer ist.

Berechnen wir mal den Mittelwert von einkommen mit R mit dem Befehl lm.

lm(einkommen ~ 1)  # lm wie "lineares Modell" oder engl. "linear modell"
## 
## Call:
## lm(formula = einkommen ~ 1)
## 
## Coefficients:
## (Intercept)  
##     1189109

Der Befehl lm gibt hier mit der Ausgabe Coeffients (Koeffizient) einen einzelnen Wert zurück und zwar den Mittelwert von einkommen, vgl. auch . Dieser Wert wird als Achsenabschnitt (engl. intercept) bezeichnet. Das wird verständlich, wenn man z.B. in sieht, dass die Gerade (des Mittelwerts) genau an diesem Punkt die Y-Achse schneidet. Die Syntax des Befehls lm() sieht etwas merkwürdig aus. Ignorieren Sie das fürs Erste, wir besprechen das später () ausführlich. lm steht übrigens für “lineares Modell”.

6.3 Der Median als Modell

🧑‍🎓 Hey, der Mittelwert ist doch Quatsch! Das ist gar kein typischer Wert für die Menschen im Hörsaal. Weder für Mbappé, noch für uns Studis!

🧑‍🏫 Ja, da habt ihr Recht.

Die Welt ist schon ungerecht!

stellt die Verteilung des Einkommens im Hörsaal dar. Zur Erinnerung: 4.0+e07 bedeutet 41007=40000000, eine 4 gefolgt von 7 Nullen.

Abbildung 6.6: Die Einkommensverteilung im Hörsaal

Der Mittelwert ist Hörsaal ist nicht typisch für die Menschen im Hörsaal: Weder für Mbappé, noch für die Studis. Genau genommen ist der Mittelwert in diesem Fall ziemlich nutzlos. Der Mittelwert ist anfällig für Extremwerte: Gibt es einen Extremwert in einer Datenreihe, so spiegelt der Mittelwert stark diesen Wert wider und weniger die Mehrheit der gemäßigten Werte. Man sagt, der Mittelwert ist nicht robust (gegenüber Extremwerten).

Wichtig

Bei (sehr) schiefen Verteilungen (s. ) ist der Mittelwert (sehr) wenig aussagekräftig, da er nicht mehr “typische” Werte für die Merkmalsträger beschreibt.

Beispiel 6.5 (Das Median-Einkommen einiger Studentinnen) Fünf Studentinnen tauschen sich über ihr Einkommen aus, s. , links. Es handelt sich um eine schiefe Verteilung.

Abbildung 6.7: Das Einkommen einiger Studentinnen sowie der Mittelwert (MW) ihres Einkommens

Wir könnten jetzt behaupten, dass Carla das typische Einkommen (für diese Datenreihe) aufweist, da es genauso viele Studentinnen gibt, die mehr verdienen, wie solche, die weniger verdienen.

Definition 6.4 (Median) Die Merkmalsausprägung, die bei (aufsteigend) sortierten Beobachtungen in der Mitte liegt, nennt man Median.

Übungsaufgabe 6.5 (Alle mal aufstehen) Auf Geheiß der Lehrkraft stehen jetzt alle Studis bitte auf und sortieren sich der Größe nach im Raum, schön in einer Reihe aufgestellt. Die Körpergröße der Person in der Mitte der Reihe, zu der also gleich viele Personen zu links wie zu rechts stehen, das ist der Medien dieser Datenreihe, vgl. .

Der Median ist robust gegenüber Extremwerten: Fügt man Extremwerte zu einer Verteilung hinzu, ändert sich der Median zumeist (deutlich) weniger als der Mittelwert. stellt den Median schematisch dar.

1.60 m

1.72 m

1.79 m

1.94

2.12 m
Abbildung 6.8: Der Median als der Wert des “mittleren” Objekts, wenn die Objekte aufsteigend sortiert sind. Es gibt genauso viele Objekte mit kleinerem Wert wie mit größerem Wert als der Median. In dieser Abbildung ist der Median (1.79 m) farbig markiert.

Bei geradem n werden die beiden mittleren Werte betrachtet und das arithmetische Mittel aus diesen beiden Werten gebildet.

Beispiel 6.6 Bei der Messreihe 1, 2, 3, 4, 5, 6, 8, 9 beträgt der Median 4.5.

Übungsaufgabe 6.6 (Emma wird reich) Durch ein geniales Patent wird Emma steinreich. Ihr Einkommen erhöht sich um das Hundertfache. Wie verändert sich der Median?

Übungsaufgabe 6.7 (Wer ist mehr “mittel”? Median oder Mittelwert?)  

🧑‍🎓 Das arithmetische Mittel sollte Mittelwert heißen, weil es die Mitte des Abstands zweier Zahlen widerspiegelt, also z.B. von 1 und 10 ist die Mitte 5.5 – also genau beim Mittelwert!

👩 Moment! Der Median und nur der Median zeigt den mittleren Messwert! Links und rechts sind gleich viele Messwerte, wenn man die Werte der Größe nach sortiert. Also liegt der Median genau in der Mitte!

Nehmen Sie Stellung zu dieser Diskussion!

Beispiel 6.7 (Ein “mittlerer” Preis für Mariokart) Der Mittelwert (das arithmetische Mittel) und der Median für das Start-Gebot (start_pr) von Mariokart-Spielen sind nicht gleich, der Mittelwert ist höher als der Median.

mariokart %>% 
  summarise(price_mw = mean(start_pr),
            price_md = median(start_pr))
price_mw price_md
8.8 1
Abbildung 6.9: Das Startgebot bei Mariokart-Spielen ist schief verteilt: Median und Mittelwert sind unterschiedlich

Wie man sieht, ist der Mittelwert größer als der Median, s. .

Klaffen Mittelwert und Median auseinander, so liegt eine schiefe Verteilung vor. Ist der Mittelwert größer als der Median, so nennt man die Verteilung rechtsschief. Bei schiefen Verteilungen ist der Median dem Mittelwert als Modell für den “typischen Wert” vorzuziehen.

Übungsaufgabe 6.8 (Mariokart ohne Extremwerte) Im Datensatz mariokart gibt es einige wenige Spiele, die für einen vergleichsweise hohen Preis verkauft wurden. Diese Extremwerte verzerren den mittleren Verkaufspreis möglicherweise über die Gebühr.

Entfernen Sie diese Werte und berechnen Sie dann Mittelwert und Median erneut. Vergleichen Sie die Ergebnisse.

Lösung

mariokart_no_extreme <- 
mariokart %>% 
  filter(total_pr < 100)

# ohne Extremwerte:
mariokart_no_extreme |> 
  summarise(total_pr_mittelwert = mean(total_pr),
            total_pr_median = median(total_pr))

# mit Extremwerten:
mariokart |> 
  summarise(total_pr_mittelwert = mean(total_pr),
            total_pr_median = median(total_pr))
total_pr_mittelwert total_pr_median
47 46
total_pr_mittelwert total_pr_median
50 46

Wie man sieht, verändert sich der Mittelwert, wenn man die Extremwerte entfernt. Für den Median trifft das nicht zu, er bleibt, wo er ist.

Übungsaufgabe 6.9 Was schätzen Sie, wie hoch das mediane Vermögen der Haushalte in Deutschland im Jahr 2021 in etwa war ()?

  1. 50 Tsd Euro
  2. 100 Tsd Euro
  3. 150 Tsd Euro
  4. 200 Tsd Euro
  5. 300 Tsd Euro

6.4 Quantile

Der Median teilt eine Verteilung in eine untere und ein obere Hälfte. Er markiert sozusagen eine “50-Prozent-Marke” (der aufsteigend sortierten Beobachtungen). Betrachten wir einmal nur alle Spiele, die für weniger als 100 Euro verkauft wurden (total_pr, finales Verkaufsgebot), s. . 50% dieser Spiele wurden für weniger als ca. 46 Euro verkauft und 50% für mehr als 46 Euro. Der Median beträgt als 46 Euro.

Jetzt könnten wir nur die günstigere Hälfte betrachten und wieder nach dem Median fragen (d.h. total_pr < 46). Dieser “Median der günstigeren Hälfte” grenzt damit das insgesamt günstigste Viertel vom Rest der Verkaufsgebote ab. In unserem Datensatz liegt dieser Wert bei ca. 41 Euro. Entsprechend kann man nach dem Wert fragen, der das oberste Viertel vom Rest der Verkaufsgebote abtrennt. Dieser Wert liegt bei ca. 54 Euro.

Definition 6.5 (Quartile) Sortiert man die Daten aufsteigend, so nennt man den Wert, der das Viertel mit den kleisten Wert vom Rest der Daten trennt das erste Quartil (Q1, 25%). Den Median nennt man das zweite Quartil (Q2, 50%). Entsprechend heißt der Wert, der die drei Viertel kleinsten Werte vom oberen Viertel abtrennt, das dritte Quartil (Q3, 75%).

Beispiel 6.8 (Quartile des Verkaufsgebot) zeigt die Quartile für das Verkaufsgebot.

Jetzt könnte man sagen, hey, warum nur in 25%-Stücke die Verteilung aufteilen? Warum nicht in 10%-Schritten?

Definition 6.6 (Dezile) Die neun Quantile p=0.1,0.2,,1, die die Verteilung in 10 gleich große Teile unterteilen, nennt man Dezile. “Gleich groß” heißt, dass in jedem Dezil gleich viele Werte (nämlich 10 %) liegen.

Oder vielleicht in 1%-Schritten oder in sonstigen Schritten? Wo die Quartile in 25%-Schritten aufteilen, teilt ein Quantil in p-Prozent-Schritten auf. S. dazu.

Definition 6.7 (Quantile) Ein p-Quantil ist der Wert, der von p Prozent der Werte nicht überschritten wird. Ein Quantil ist ein Oberbegriff für Quartile, Dezile etc.

zeigt das 1. (Q1), das 2. (Median) und das 3. Quartil für den Datensatz mariokart2.

Abbildung 6.10: Q1, Q2 und Q3 für das Schlussgebot (nur Spiele für weniger als 100 Euro) in einem Dichtediagramm

Quantile kann man in R mit dem Befehl quantile() berechnen:

mariokart %>% 
  filter(total_pr < 100) %>% 
  summarise(
    q25 = quantile(total_pr, .25),  # 1. Quartil
    q50 = quantile(total_pr, .50),  # 2. Quartil
    q75 = quantile(total_pr, .75))  # 3. Quartil

stellt einige Quantile animiert dar.

Abbildung 6.11: Verschiedene Quantile animiert

visualisiert verschiedene Quantile. Man beachte, dass alle Regionen gleichgroße Flächen (d.h. Wahrscheinlichkeitsmassen) aufweisen.

(a) 10%-Schritte: Dezile
(b) 1%-Schritte: Perzentile
Abbildung 6.12: Verschiedene Quantile visualisiert

6.5 Lagemaße

🧑‍🎓 Was ist der Oberbegriff für Median, Mittelwert und so weiter?

🧑‍🏫 Gute Frage! Wie würden Sie ihn nennen?

Definition 6.8 (Lagemaß) Ein Lagemaß (synonym: Maß der zentralen Tendenz) für eine Verteilung gibt einen Vorschlag, welchen Wert der Verteilung wir als typisch, normal, erwartbar, repräsentativ oder “mittel” ansehen sollten.

Gebräuchliche Lagemaße sind:

  • Mittelwert (arithmetisches Mittel)
  • Median
  • Quantile wie z.B. Quartile
  • Minimum (kleinster Wert)
  • Maximum (größter Wert)
  • Modus (häufigster Wert)

Berechnen wir Lagemaße für den Mariokart-Datensatz, z.B. mit describe_distribution(mariokart), s. . Es ist übrigens egal, wie Sie die Variablen benennen, die Sie berechnen: mw oder mittelwert oder mean oder mein_krasser_variablenname – alles okay!

Listing 6.2: Syntax zur Berechnung von Lagemaßen
describe_distribution(mariokart) |>  
  # Einige Spalten interessieren uns hier nicht:
  select(-Skewness, -Kurtosis, -n, n_Missing)

Häufig möchte man Statistiken wie Lagemaße für mehrere Teilgruppen – z.B. Mittlere Körpergröße von Frauen vs. mittlere Körpergröße von Männern – berechnen und dann vergleichen. Die zugrundeliegende stehende Forschungsfrage könnte lauten: “Unterscheidet sich der Mittelwert der Körpergröße von Frauen und Männern?” Oder vielleicht: “Hängt das Geschlecht mit der Körpergröße zusammen?” Anders ausgedrückt: Körpergröße y ist eine Funktion des Geschlechts G. Die Modellformel könnte also lauten: yG. Gruppierte Lagemaße lassen sich in R z.B. so berechnen, s. .

Listing 6.3: Gruppierte Lagemaße
mariokart_lagemaße_gruppiert <-
  mariokart %>% 
  group_by(wheels) %>%  # neue Zeile, der Rest ist gleich!
  summarise(mw = mean(total_pr))
Tabelle 6.1: Gruppierte Mittelwerte
wheels mw
0 41
1 44
2 61
3 70
4 65

zeigt ein Beispiel für ungruppierte (links) bzw. gruppierte (rechts) Mittelwerte; vgl. . Wie man in dem Diagramm sieht, kann das Residuum kleiner werden bei einer Gruppierung (im Vergleich zu einem ungruppierten, “globalen” Mittelwert): Innerhalb der Gruppe ohne Lenkräder und innerhalb der Gruppe mit 2 Lenkrädern sind die Abweichungen zu ihrem Gruppen-Mittelwert relativ gering – im Vergleich zu den Abweichungen der Preise zum ungruppierten Mittelwert.

Definition 6.9 (Punktmodell) Ein Modell, welches für alle Beobachtungen ein und denselben Wert annimmt (vorhersagt), heißt Punktmodell. Anders gesagt fasst ein Punktmodell eine Wertereihe (häufig ist das eine Tabellenspalte) zu einer einzelnen Zahl zusammen, einem “Punkt” in diesem Sinne, s. .

Abbildung 6.13: Die deskriptive fasst eine Spalte zu einer einzelnen Zahl zusammen.

Mittelwert, Median und Quartile sind Beispiele für Punktmodelle: Sie fassen eine Verteilung zu einem einzelnen Wert zusammen und geben uns ein “Bild” der Daten, machen sie uns verständlich – sie sind uns also ein Modell.

(a) ungruppiert

 

(b) gruppiert
Abbildung 6.14: Der mittlere Preis von Mariokart-Spielen als horizontale Gerade eingezeichnet. (a) ungruppiert; (b) gruppiert nach Anzahl der Lenkräder.

6.6 Wie man mit Statistik lügt

Es heißt, mit Statistik könne man vortrefflich lügen. Woran liegt das? Der Grund ist, dass die Statistik Freiheitsgrade lässt: Es gibt nicht nur einen richtigen Weg, um eine statistische Analyse durchzuführen. Viele Wege führen nach Rom (aber nicht alle). Um Manipulationsversuche abzuwehren oder einfache Fehler und Unschärfen ohne böse Absicht aufzudecken, gibt es ein probates Gegenmittel: Transparenz. Analysen sollten transparent sein: Das Vorgehen und die zugrundeliegenden Entscheidungen offenlegen. Hier ist eine (nicht abschließende!) Checkliste, was Sie nachprüfen sollten, um die Belastbarkeit einer Analyse sicherzustellen Wicherts et al. ():

  1. Wurde die Art und die Zeitdauer der Datenerhebung vorab festgelegt und berichtet?
  2. Wurden ausreichend Daten gesammelt (z.B. mind. 20 Beobachtungen pro Gruppe)?
  3. Wurden alle untersuchten Variablen berichtet?
  4. Wurden alle durchgeführten Interventionen berichtet?
  5. Wurden Daten aus der Analyse entfernt? Wenn ja, gibt es eine (stichhaltige) Begründung?

Stellen Sie hohe Anforderungen an die Transparenz einer statistischen Analyse. Nur durch Nachprüfbarkeit können Sie sich von der Stichhaltigkeit der Ergebnisse und deren Interpretation überzeugen.

6.7 Vertiefung

Beispiel 6.9 (Survival-Tipp) Eine Studentin aus dem Bachelorstudiengang “Angewandte Medien- und Wirtschaftspsychologie” mit Schwerpunkt Data Science berichtet ihre “Survival-Tipps” für Statistik.

  1. Wenn man mal nicht weiterkommt, hilft es auch mal ein paar Tage Abstand von R und Statistik zu nehmen.
  2. Es hilft, sich während des Semesters neue Begriffe und ihre Erklärung zusammenschreiben.
  3. Gut ist auch, sich mit KommilitonInnen auszutauschen oder in höheren Semestern nach Tipps zu fragen.

🧑‍🎓 Irgendwie kann ich mir R-Code so schlecht merken.

🧑‍🏫 Frag doch mal ChatGPT, oder einen anderen Chatbot – dort bekommt man auch R-Code ausgegegeben.

Übungsaufgabe 6.10 (Übungsfragen vom Chat-Bot) Fragen Sie einen Chat-Bot wie ChatGPT nach Übungsaufgaben. Sie können sich an folgenden Prompt orientieren. Empfehlenswert ist mit verschiedenen Prompts zu experimentieren.

🧑‍🎓 Ich bin ein Student in einem Bachelor-Studiengang für Psychologie. Gerade bereite ich mich auf die Klausur im Fach “Grundlagen der Statistik” vor. Bitte schreibe mir Aufgaben, die mir helfen, mich auf die Prüfung vorzubereiten. Die Fragen sollten folgende Themen beinhalten: Maße der zentralen Tendenz, Grundlagen von R, Skalenniveau (z.B. Nominalskala vs. Intervallskala), Verteilungsformen, Normalverteilungen, z-Werte. Bitte schreibe die Aufgabe im Stil von Richtig-Falsch-Aufgaben. Schreibe ca. 10 Aufgaben.

6.8 Aufgaben

Ein Teil der folgenden Aufgaben kann Stoff beinhalten, den Sie noch nicht kennen, aber später kennenlernen. Ignorieren Sie daher Aufgaben(teile) mit (noch) unbekanntem Stoff.

Die Webseite datenwerk.netlify.app stellt eine Reihe von einschlägigen Übungsaufgaben bereit. Sie können die Suchfunktion der Webseite nutzen, um die Aufgaben mit den folgenden Namen zu suchen:

  1. Kennwert-robust
  2. mw-berechnen
  3. mariokart-max2
  4. nasa01
  5. mariokart-mean1
  6. wrangle10
  7. summarise01
  8. mariokart-max1
  9. Schiefe1
  10. mariokart-mean2
  11. summarise03
  12. mariokart-mean4
  13. mariokart-mean3
  14. summarise02
Tipp

Schauen Sie sich auch mal auf datenwerk.netlify.app die Aufgaben zu z.B. dem Tag EDA an.

Übungsaufgabe 6.11 Mittlerweile verfügen Sie einige wesentliche Werkzeuge des Datenjudo. Hier finden Sie einen Überblick an Datensätze, die Sie nach Herzenslust analysieren können.

6.9 Literaturhinweise

Es gibt viele Lehrbücher zu den Grundlagen der Statistik; die Inhalte dieses Kapitels gehören zu den Grundlagen der Statistik. Vielleicht ist es am einfachsten, wenn Sie einfach in Ihrer Bibliothek des Vertrauens nach einem typischen Lehrbuch schauen. Beispiel für Lehrbücher sind Mittag & Schüller () oder Oestreich & Romberg (); ein Klassiker ist Bortz & Schuster (). Ein Fokus auf R legt Sauer (). Wer vor Englisch nicht zurückschreckt, ist mit Cetinkaya-Rundel & Hardin () oder Poldrack () gut beraten. Beide Bücher sind online verfügbar. Tipp: Mit dem Browser einfach auf Deutsch übersetzen.


  1. https://en.wikipedia.org/wiki/Average_human_height_by_country↩︎

  2. 316 Tsd Euro↩︎

  3. Er bleibt gleich, verändert sich also nicht: Der Median ist robust, er verändert sich nicht oder kaum, wenn Extremwerte vorliegen.↩︎

  4. ca. 84 Tsd Euro↩︎

  5. https://data-se.netlify.app/2022/02/23/data-sets-for-for-teaching/↩︎