6  Punktmodelle 1

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

6.1 Lernsteuerung

Abbildung 1.3 zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.

6.1.1 Lernziele

  • Sie können gängige Arten von Lagemaße definieren.
  • Sie können erläutern, inwiefern man ein Lagemaß als ein Modell hernehmen kann.
  • Sie können Lagemaße mit R berechnen.

6.1.2 Benötigte R-Pakete

In diesem Kapitel benötigen Sie folgende R-Pakete.

\[ \definecolor{ycol}{RGB}{230,159,0} \definecolor{modelcol}{RGB}{86,180,233} \definecolor{errorcol}{RGB}{0,158,115} \definecolor{beta0col}{RGB}{213,94,0} \definecolor{beta1col}{RGB}{0,114,178} \definecolor{xcol}{RGB}{204,121,167} \]

6.1.3 Benötigte Daten

mariokart <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")

6.2 Mittelwert als Modell

Der “klassische” Mittelwert (das arithmetisches Mittel) ist ein prototypisches Beispiel für ein Modell in der Statistik.

Übungsaufgabe 6.1 Welche Vorstellung haben Sie, wenn Sie hören, dass der “typische deutsche Mann” 1,80m groß ist (vgl. Roser et al., 2013)? (Ihr Vorstellung updatet sich in Definition 6.1.)

  1. Die Hälfte der Männer ist größer als 1,80 m, die andere Hälfte kleiner.
  2. Das arithmetische Mittel der Männer beträgt 1,80 m.
  3. Die meisten Männer sind 1,80 m groß.
  4. Etwas anderes.
  5. Keine Ahnung! \(\square\)

Übungsaufgabe 6.2 Laut dem Statistischen Bundesamt (2023-003-27) beträgt der Wert der mittleren Größe deutscher Frauen etwa 1,66m, also 14 cm weniger als bei Männern.1 \(\square\)

Ist das viel?

  1. ja
  2. nein
  3. kommt drauf an
  4. weiß nicht \(\square\)

Auf dieser Frage gibt es keine Antwort, zumindest nicht ohne weitere Annahmen. So könnte man z.B. sagen, “mehr als 5 cm sind viel”. So eine Entscheidung ist aber keine statistische Angelegenheit, sondern eine inhaltliche.

Beispiel 6.1 (Beispiel zum Mittelwert) Ein Statistikkurs besteht aus drei Studentinnen: Anna, Berta und Carla. Sie haben gerade ihre Noten in der Klausur erfahren. Anna hat eine 1, Berta eine 2 und Carla eine 3. Der Durchschnitt (das arithmetische Mittel, \(\varnothing\), der Durchschnitt) beträgt: 2. \(\square\)

🧑‍🎓 Zu easy!

🧑‍🏫 Schon gut! Chill mal. Wird gleich interessanter.

Die Rechenregel zum Mittelwert lautet:

  1. Addiere alle Werte
  2. Teile durch die Anzahl der Werte
  3. Fertig. 😄

Etwas abstrakter kann man Beispiel 6.1 in folgendem Schaubild darstellen, s. Gleichung 6.1.

\[ \begin{array}{|c|} \hline \\ \\ \square \\ \hline \end{array} + \begin{array}{|c|} \hline \\ \square \\ \square \\ \hline \end{array} + \begin{array}{|c|} \hline \square \\ \square \\ \square \\ \hline \end{array} = 3 \cdot \begin{array}{|c|} \hline \\ \square \\ \square \\ \hline \end{array} \tag{6.1}\]

Der Nutzen des Mittelwerts liegt darin, dass er uns ein Bild gibt (ein Modell ist!) für die “typische Note” im Statistikkurs, s. Gleichung 6.2.

\[\begin{array}{|c|} \hline \\ \\ \square \\ \hline \end{array} + \begin{array}{|c|} \hline \\ \square \\ \square \\ \hline \end{array} + \begin{array}{|c|} \hline \square \\ \square \\ \square \\ \hline \end{array} \qquad \leftrightarrow \qquad \underbrace{\begin{array}{|c|} \hline \\ \square \\ \square \\ \hline \end{array}}_{\text{"typischer Vertreter"}} \tag{6.2}\]

Wichtig

Der Nutzen des Mittelwerts liegt darin, dass er eine Datenreihe zu einen “typischen Vertreter” zusammenfasst. Er ist typisch in dem Sinne, als dass die Werte aller Merkmalsträger in gleichem Maße einfließen. Er gibt uns eine (mögliche) Vorstellung (ein Modell!), wie wir uns die Werte der Datenreihe vorstellen sollen.

Eine nützliche Anschauung zum Mittelwert ist die Vorstellung des Mittelwerts als eine ausbalancierte Wippe, s. Abbildung 6.1.

Abbildung 6.1: Mittelwert als ausbalancierte Wippe mit Mittelwert 3 (Maphry, 2009)

In “Mathe-Sprech” bezeichnet man den Mittelwert häufig mit \(\bar{x}\) und schreibt die Rechenregel so, s. Gleichung 6.3.

\[\bar {x} =\frac{1}{n} \sum_{i=1}^{n}{x_{i}}=\frac {x_{1}+x_{2}+\dotsb +x_{n}} {n} \tag{6.3}\]

Definition 6.1 (Mittelwert) Der Mittelwert (MW, mean) der Variablen \(X\) (präziser: das arithmetische Mittel des Merkmal \(X\)) ist definiert als die Summe der Elemente von \(X\) geteilt durch deren Anzahl, \(n\). Den Mittelwert von \(X\) bezeichnet man auch mit \(\bar {x}\). \(\square\)

Beispiel 6.2 Angenommen wir haben eine Reihe von Noten: 1,2,3. Der Mittelwert der Noten beträgt dann 2: \(\bar{X} = \frac{1}{3}\sum (1+2+3) = 6/3 = 2\). \(\square\)

Da der Mittelwert eine zentrale Rolle spielt in der Statistik, sollten wir ihn uns noch etwas genauer anschauen. In s. Abbildung 6.2 sehen wir die Noten von (dieses Mal) vier Studentis. Die gestrichelte horizontale Linie zeigt den Mittelwert der vier Noten. Die schwarzen Punkte sind die Daten, in dem Fall die einzelnen Noten. Die vertikalen Linien zeigen die Abweichungen der Noten zum Mittelwert.

Bezeichnen wir die Abweichung – auch als “Fehler”, “Rest” oder “Residuum” bezeichnet – der \(i\)-ten Person mit \(\color{errorcol}{\text{e}_i}\) (e wie engl. error, Fehler) und die \(i\)-te Note mit \(\color{ycol}{y_i}\), so können wir mit Gleichung 6.4 festhalten:

\[\color{ycol}{\text{y}_i} \color{black}{ = } \color{modelcol}{\;\bar{x}\;} + \color{errorcol}{\;\text{e}_i} \tag{6.4}\]

Anders ausgedrückt (s. Gleichung 6.5):

\[\color{ycol}{\text{Daten}} \color{black}{ = } \color{modelcol}{\text{Modell}} + \color{errorcol}{\text{Rest}} \tag{6.5}\]

Der Mittelwert ist hier unser Modell der Daten. Wie gesagt: Ein Modell ist eine vereinfachte (zusammengefasste) Beschreibung einer Datenreihe.

Um Modelle darzustellen, wird in der Datenanalyse häufig folgende Art von Modellgleichung verwendet, s. Gleichung 6.6.

\[\color{modelcol}{\hat{y}} \sim \color{xcol}{\text{ x}} \tag{6.6}\]

Lies: “Der Modellwert \(\color{modelcol}{\hat{y}}\) ist eine Funktion der Variable \(\color{xcol}{\text{x}}\)”. Der Kringel “~” soll also hier heißen “… ist eine Funktion von …”. Das “Kringel” oder die “Welle” “~” nennt man auch “Tilde”.

Mit \(\color{modelcol}{\hat{y}}\) ist die vorhergesagte bzw. die zu erklärende Variable (synonym: AV, Output-Variable, Zielvariable) gemeint. Das “Dach” über dem \(\color{ycol}{\text{y}}\) bedeutet “vorhergesagter Y-Wert” oder “Y-Wert laut dem Modell”. Der tatsächliche, beobachtete Wert \(\color{ycol}{\text{y}}\) setzt sich zusammen aus dem Modellwert \(\color{modelcol}{\text{m}}\) plus einem Fehler \(\color{errorcol}{\text{e}}\), s. Gleichung 6.7.

\[\color{ycol}{y} \color{black}{ = } \color{modelcol}{\text{m}} + \color{errorcol}{\text{e}} \tag{6.7}\]

Anstelle von \(\color{modelcol}{\text{m}}\) schreibt man auch \(\color{modelcol}{\hat{y}}\) (“y-Dach”). In diesem Fall ist das Modell einfach gleich dem Mittelwert (und nicht irgendeiner Funktion des Mittelwerts), so dass wir mit Gleichung 6.8 schreiben können:

\[\color{ycol}{y} \color{black}{ = } \color{modelcol}{\bar{x}} + \color{errorcol}{e} \tag{6.8}\]

Die Zielvariable \(\color{ycol}{\text{y}}\) wird also durch ihren eigenen Mittelwert erklärt, außer gehen wir von einem Fehler \(\color{errorcol}e\) in unseren Modellvorhersagen aus. Nobody is perfect. In späteren Kapiteln werden wir andere Variablen heranziehen, um die Zielvariable zu erklären. Würden wir z.B. sagen wollen, dass wir \(\color{ycol}{\text{y}}\) als Funktion einer Variable \(\color{xcol}{X}\) erklären, so würden wir schreiben (s. Gleichung 6.9):

\[\color{modelcol}{\bar{y}} \color{black} { \sim } \color{xcol}{\text{ x}} \tag{6.9}\]

Da wir im Moment aber keine andere Variablen bemühen, um \(\color{ycol}{\text{y}}\) zu erklären, schreibt man mit Gleichung 6.10 auch:

\[\color{modelcol}{\bar{y}}\;\; \color{black}{\sim \; 1} \tag{6.10}\]

Diese Schreibweise sieht verwirrend aus. Die \(1\) soll aber nur zeigen, dass wir keine andere Variable zur Erklärung von \(\color{ycol}{\text{y}}\) verwenden, daher steht hier kein Buchstabe, sondern eine einfache \(1\). Der mathematische Hintergrund liegt in der Art, wie man Matrizen multipliziert.

Beispiel 6.3 (Noten, Mittelwert und Abweichung) Vier Studentis – Anna, Berta, Carl, Dani – haben ihre Statistik-Klausur zurückbekommen (Schluck). Die Noten sehen Sie in Abbildung 6.2; gar nicht so schlecht ausgefallen. Außerdem ist der Mittelwert (gestrichelte horizontale Linie) sowie die Abweichungen der einzelnen Noten vom Mittelwert eingezeichnet.\(\square\)

Schauen Sie sich die Abweichungsbalken (Residuen, Fehler; häufig mit \(e\) wie error bezeichnet) in Abbildung 6.2 einmal genauer an.

Abbildung 6.2: Der Mittelwert als horizontale (gestrichelte) Linie. Die vertikalen Linien zeigen die Abweichungen der einzelnen Werte zum Mittelwert. Die Abweichungen summieren sich zu Null auf.

Jetzt stellen Sie sich vor, Sie würden die vom Mittelwert nach oben ragenden Balkenlängen aneinanderlegen (das sind die gestrichelten. Sehen Sie das vor Ihrem geistigen Auge? Jetzt legen Sie auch noch die Abweichungsbalken, die nach unten ragen, aneinander (die mit den durchgezogenen Linien). Wer viel Phantasie hat, erkennt (sieht) jetzt, dass die Gesamtlänge der “Balken nach oben” identisch ist zur Gesamtlänge der nach “unten ragenden Balken”, vgl. Abbildung 6.1.

Präziser ausgedrückt und ohne Ihre Phantasie zu strapazieren (Gleichung 6.11):

\[\sum_{i=1}^n (x_i-\bar{x})=\sum_{i=1}^n x_i - \sum_{i=1}^n \bar{x} = n\cdot \bar{x} - n\cdot \bar{x}=0 \tag{6.11}\]

Hinweis

Die Summe der Abweichungen vom Mittelwert ist Null.

Übungsaufgabe 6.3 Was schätzen Sie, wie hoch das mittlere Vermögen (arithmetisches Mittel) der Haushalte in Deutschland in etwa ist (im Jahr 2021 auf Basis einer Umfrage) (Bundesbank, 2023)?2 \(\square\)

  1. 50.000 Euro
  2. 100.000 Euro
  3. 150.000 Euro
  4. 200.000 Euro
  5. 300.000 Euro

Beispiel 6.4 (Der wertvollste Fußballer der Welt in Ihrem Hörsaal) Kommt der wertvollste Fußballspieler der Welt in Ihren Hörsaal, sagen wir, es ist Kylian Mbappé3. Sein Jahreseinkommen (2023) liegt bei ca. 120 Millionen Euro4.

🦹 Hey Leute, wie geht’s denn so! Wie viel Kohle verdient ihr eigentlich so?

🧑‍🎓 Äh, wir studieren und verdienen fast nix!

Die 100 Studis im Hörsaal schauen verdattert aus der Wäsche: Was ist das für eine komische Frage!? Aber zumindest verteilt der Fußballspieler Autogramme.

Übungsaufgabe 6.4 (Mittleres Einkommen im Hörsaal, mit Kylian Mbappé) Schätzen Sie – im Kopf – das mittlere Vermögen im Hörsaal, gehen Sie davon aus, dass alle der 100 Studentis jeweils 1000 Euro im Jahr verdienen. \(\square\)

In R kann man das mittlere Einkommen (präziser: das arithmetische Mittel des Einkommens) wie folgt berechnen, s. Listing 6.1. (Die Details der Syntax, z.B. der Befehl rep(), sind von geringer Bedeutung.)

Listing 6.1: Wir simulieren Einkommen von 100 Studis plus Mbappé.
set.seed(42)  # Zufallszahlen festlegen, hier nicht so wichtig
einkommen_studis <- rep(x = 1000, times = 100)  # "rep" wie "repeat": wiederhole 1000 USD 100 Mal
einkommen <- c(einkommen_studis, 120*1e6)  # 100 Studis mit 1000, 1 Mbappé mit 120 Mio
einkommen_mw <- mean(einkommen)
einkommen_mw
## [1] 1189109
Hinweis

1 Million hat 6 Nuller hinter der führenden Eins: 1000000. In Taschenrechner- oder Computerschreibweise: 1 Mio = 1e6, das 1e6 ist zu lesen als “1 Mal 10 hoch 6, also mit 6 im Exponenten”.

Der Mittelwert im Hörsaal beträgt also 1,189,109 Euro, etwas mehr als eine Million. Ist das ein gutes Modell für das “typische” Vermögen im Hörsaal?

6.2.1 Der Mittelwert als lineares Modell

Man kann den Mittelwert als Gerade einzeichnen, s. Abbildung 6.3, bzw. als Gerade begreifen. Insofern kann man vom Mittelwert auch als lineares Modell sprechen.

Definition 6.2 (Lineares Modell) Ein lineares Modell verwendet eine Gerade als Modell der Daten. Es erklärt die Daten anhand einer Geraden. \(\square\)

(a) Mit Extremwerten
(b) Ohne Extremwerte (<100 Euro)
Abbildung 6.3: Der mittlere Preis von Mariokart-Spielen als horizontale Gerade eingezeichnet

Abbildung 6.3 zeigt den Mittelwert des Verkaufspreises der Mariokart-Spiele (total_pr), einmal mit (farbig markierten) Extremwerte (a) bzw. einmal ohne Extremwerte (b).

Definition 6.3 (Extremwert) Ein Extremwert (Ausreißer; outlier) ist eine Beobachtung, deren Wert deutlich vom Großteil der anderen Beobachtungen im Datensatz abweicht, z.B. viel größer ist. \(\square\)

Berechnen wir mal den Mittelwert von einkommen mit R mit dem Befehl lm.

lm(einkommen ~ 1)  # lm wie "lineares Modell" oder engl. "linear modell"
## 
## Call:
## lm(formula = einkommen ~ 1)
## 
## Coefficients:
## (Intercept)  
##     1189109

Der Befehl gibt als Koeffizient einen Wert zurück und zwar den Mittelwert von einkommen, vgl. auch Listing 6.1. Dieser Wert wird als Achsenabschnitt (engl. intercept) bezeichnet, das wird verständlich, wenn man z.B. in Abbildung 6.3 sieht, dass die Gerade (des Mittelwerts) genau an diesem Punkt die Y-Achse schneidet. Die Syntax des Befehls lm() sieht etwas merkwürdig aus. Ignorieren Sie das fürs Erste, wir besprechen das später (Kapitel 9) ausführlich. lm steht übrigens für “lineares Modell”.

6.3 Median als Modell

🧑‍🎓 Hey, der Mittelwert ist doch Quatsch! Das ist gar kein typischer Wert für die Menschen im Hörsaal. Weder für den Mbappé, noch für uns Studis!

🧑‍🏫 Ja, da habt ihr Recht.

Die Welt ist schon ungerecht!

Wichtig

Bei (sehr) schiefen Verteilungen (s. Abbildung 6.4) ist der Mittelwert (sehr) wenig aussagekräftig, da er nicht mehr “typische” Werte für die Merkmalsträger beschreibt.

Abbildung 6.4 stellt die Verteilung des Einkommens einer mit “normal” skalierter Achse und einmal mit logarithmischer X-Achse. Zur Erinnerung: 4.0+e07 bedeutet \(4 \cdot 10^{07} = 40000000\), eine 4 gefolgt von 7 Nullern. Die logarithmische X-Achse stellt den Unterschied von Mittelwert (MW) und Median deutlicher heraus als die normale (additive) Achse.

(a) X-Achse in additiver Form
(b) X-Achse in multiplikativer Form (logarithmische Darstellung)
Abbildung 6.4: Die Einkommensverteilung im Hörsaal

Der Mittelwert ist Hörsaal ist nicht typisch für die Menschen im Hörsaal: Weder für Mbappé, noch für die Studis. Genau genommen ist der Mittelwert in diesem Fall ziemlich nutzlos.

Wichtig

Der Mittelwert ist empfänglich für Extremwerte: Gibt es einen Extremwert in einer Datenreihe, so spiegelt der Mittelwert stark diesen Wert wieder und weniger die Mehrheit der gemäßigten Werte. Man sagt, der Mittelwert ist nicht robust (gegenüber Extremwerten).

Beispiel 6.5 (Das Median-Einkommen einiger Studentinnen) Fünf Studentinnen tauschen sich über ihr Einkommen aus, s. Abbildung 6.5, links. Es handelt sich um eine schiefe Verteilung.

(a) Einkommen auf der Y-Achse
(b) Einkommen auf der X-Achse
Abbildung 6.5: Das Median-Einkommen einiger Studentinnen sowie der Mittelwert (MW) ihres Einkommens

Wir könnten jetzt behaupten, dass Carla das typische Einkommen (für diese Datenreihe) aufweist, da es genauso viele Studentinnen gibt, die mehr verdienen, wie solche, die weniger verdienen. \(\square\)

Definition 6.4 (Median) Merkmalsausprägung, die bei (aufsteigend) sortierten Beobachtungen in der Mitte liegt. \(\square\)

Übungsaufgabe 6.5 (Alle mal aufstehen) Auf Geheiß der Lehrkraft stehen jetzt alle Studis bitte auf und sortieren sich der Größe nach im Raum, schön in einer Reihe aufgestellt. Die Körpergröße der Person in der Mitte der Reihe, zu der also gleich viele Personen zu links wie zu rechts stehen, das ist der Medien dieser Datenreihe, vgl. Abbildung 6.6. \(\square\)

Der Median ist robust (gegenüber) Extremwerten: Fügt man Extremwerte zu einer Verteilung hinzu, ändert sich der Median zumeist (deutlich) weniger als der Mittelwert.

Abbildung 6.6 stellt den Median schematisch dar.

1,60m

1,72m

1,79m: Median!

1,94

2,12m
Abbildung 6.6: Der Median als der Wert des “mittleren” Objekts, wenn die Objekte aufsteigend sortiert sind. Es gibt genauso viele Objekte mit kleinerem Wert als der Median wie Objekte mit größerem Wert als der Median.

Bei geradem \(n\) werden die beiden mittleren Werte betrachtet und das arithmetische Mittel aus diesen beiden Werten gebildet.

Beispiel 6.6 Bei der Messreihe 1, 2, 3, 4, 5, 6, 8, 9 beträgt der Median 4.5.\(\square\)

Übungsaufgabe 6.6 (Emma wird reich) Durch ein geniales Patent wird Emma steinreich. Ihr Einkommen erhöht sich um das Hundertfache. Wie verändert sich der Median?5 \(\square\)

Übungsaufgabe 6.7 (Wer ist mehr “mittel”? Median oder Mittelwert?)  

🧑‍🎓 Das arithmetische Mittel sollte Mittelwert heißen, weil es die Mitte von zwei Messwerten widerspiegelt, also z.B. von 1 und 10 ist die Mitte 5,5 – also genau beim Mittelwert!

👩 Moment! Der Median und nur der Median zeigt den mittleren Messwert! Links und rechts sind gleich viele Messwerte, wenn man die Werte der Größe nach sortiert. Also liegt der Median genau in der Mitte!

Nehmen Sie Stellung zu dieser Diskussion!\(\square\)

Beispiel 6.7 (Ein “mittlerer” Preis für Mariokart) Der Mittelwert (das arithmetische Mittel) und der Median für das Start-Gebot (start_pr) von Mariokart-Spielen sind nicht gleich, der Mittelwert ist höher als der Median.

mariokart <- read.csv(mariokart_path)  # Der Pfad steht zu Beginn des Kapitels

mariokart %>% 
  summarise(price_mw = mean(start_pr),
            price_md = median(start_pr))

Wie man sieht, ist der Mittelwert größer als der Median, s. Abbildung 6.7.

Abbildung 6.7: Das Start-Gebot bei Mariokart-Spielen ist schief verteilt: Median und Mittelwert sind unterschiedlich
Hinweis

Klaffen Mittelwert und Median auseinander, so liegt eine schiefe Verteilung vor. Ist der Mittelwert größer als der Median, so nennt man die Verteilung rechtsschief. Bei schiefen Verteilungen ist der Median dem Mittelwert als Modell für den “typischen Wert” vorzuziehen.

Übungsaufgabe 6.8 (Mariokart ohne Extremwerte) Im Datensatz mariokart gibt es einige wenige Spiele, die für einen vergleichsweise hohen Preis verkauft wurden. Diese Extremwerte verzerren den mittleren Verkaufspreis möglicherweise über die Gebühr. \(\square\)

Aufgabe Entfernen Sie diese Werte und berechnen Sie dann Mittelwert und Median erneut. Vergleichen Sie die Ergebnisse.

Lösung

mariokart_no_extreme <- 
mariokart %>% 
  filter(total_pr < 100)

# ohne Extremwerte:
mariokart_no_extreme |> 
  summarise(total_pr_mittelwert = mean(total_pr),
            total_pr_median = median(total_pr))

# mit Extremwerten:
mariokart |> 
  summarise(total_pr_mittelwert = mean(total_pr),
            total_pr_median = median(total_pr))

Übungsaufgabe 6.9 Was schätzen Sie, wie hoch das mediane Vermögen des Haushalte in Deutschland im Jahr 2021 in etwa war (Bundesbank, 2023)?6

  1. 50.000 Euro
  2. 100.000 Euro
  3. 150.000 Euro
  4. 200.000 Euro
  5. 300.00 Euro\(\square\)

6.4 Quantile

Der Median teilt eine Verteilung in eine untere und ein obere Hälfte. Er markiert sozusagen eine “50-Prozent-Marke” (der aufsteigend sortierten Beobachtungen). Betrachten wir einmal nur alle Spiele, die für weniger als 100 Euro verkauft wurden (total_pr, finales Verkaufsgebot), s. Abbildung 6.8. 50% aller Spiele wurden für weniger als ca. 46 Euro verkauft; 50% aller Spiele für mehr als 46 Euro. Der Median beträgt als 46 Euro.

Jetzt könnten wir nur die günstigere Hälfte betrachten und wieder nach dem Median fragen (d.h. total_pr < 46). Dieser “Median der günstigeren Hälfte” grenzt damit das insgesamt günstigste Viertel vom Rest der Verkaufsgebote ab. In unserem Datensatz liegt dieser Wert bei ca. 41 Euro. Entsprechend kann man nach dem Wert fragen, der das oberste Viertel vom Rest der Verkaufsgebote abtrennt. Dieser Wert liegt bei ca. 54 Euro.

Definition 6.5 (Quartile) Sortiert man die Daten aufsteigend, so nennt man den Wert, der das Viertel mit den kleisten Wert vom Rest der Daten trennt das erste Quartil (Q1, 25%). Den Median nennt man das zweite Quartil (Q2, 50%). Entsprechend heißt der Wert, der die drei Viertel kleinsten Werte vom oberen Viertel abtrennt, das dritte Quartil (Q3, 75%).\(\square\)

Beispiel 6.8 (Quartile des Verkaufsgebot) Abbildung 6.8 zeigt die Quartile für das Verkaufsgebot.\(\square\)

Jetzt könnte man sagen, hey, warum nur in 25%-Stücke die Verteilung aufteilen? Warum nicht in 10%-Schritten?

Definition 6.6 (Dezile) Die neun Quantile \(p= 0.1, 0.2, \ldots, 1\), die die Verteilung in 10 gleiche Teile unterteilen, nennt man Dezile. \(\square\)

Oder vielleicht in 1%-Schritten oder in sonstigen Schnitten? Wo die Quartile in 25%-Schritten aufteilen, teilt in Quantil in \(p\)-Prozent-Schritten auf. S. Abbildung 6.9 dazu.

Definition 6.7 (Quantile) Ein p-Quantil ist der Wert, der von \(p\) Prozent der Werte nicht überschritten wird.\(\square\)

Hinweis

Ein Quantil ist ein Oberbegriff für Quartile, Dezile, etc. \(\square\)

Abbildung 6.8 zeigt das 1. (Q1), das 2. (Median) und das 3. Quartil für den Datensatz mariokart2.

(a) Histogramm
(b) Dichtediagramm
Abbildung 3: Q1, Q2 und Q3 für das Schlussgebot (nur Spiele für weniger als 100 Euro)
Abbildung 6.8

Verschiedene Arten von Quantilen.

::::

Quantile kann man in R mit dem Befehl quantile() berechnen:

mario_quantile <- 
mariokart %>% 
  filter(total_pr < 100) %>% 
  summarise(q25 = quantile(total_pr, .25),
            q50 = quantile(total_pr, .50),
            q75 = quantile(total_pr, .75))

Abbildung 6.9 stellt einige Quantile animiert dar.

Abbildung 6.9: Verschiedenen Quantile animiert

Abbildung 6.10 visualisiert verschiedene Quantile. Man beachte, dass alle Regionen gleichgroße Flächen (d.h. Wahrscheinlichkeitsmassen) aufweisen.

(a) 25%-Schritte: Quartile
(b) 10%-Schritte: Dezile
(c) 1%-Schritte: Perzentile
Abbildung 6.10: Verschiedene Quantile visualisiert. In jedem Diagramm sind die Regionen gleich groß, beinhalten also (ungefähr) die gleiche Anzahl von Beobachtungen.

6.5 Lagemaße

🧑‍🎓 Was ist der Oberbegriff für Median, Mittelwert und so weiter?

🧑‍🏫 Gute Frage! Wie würden Sie ihn nennen?

Definition 6.8 (Lagemaß) Ein Lagemaß (synonym: Maß der zentralen Tendenz) für eine Verteilung gibt einen Vorschlag, welchen Wert der Verteilung wir als typisch, normal, erwartbar, repräsentativ oder “mittel” ansehen sollten.\(\square\)

Beispiel 6.9 Gebräuchliche Lagemaße sind:

  • Mittelwert (arithmetisches Mittel)
  • Median
  • Quantile wie z.B. Quartile
  • Minimum (kleinster Wert)
  • Maximum (größter Wert)
  • Modus (häufigster Wert) \(\square\)

Berechnen wir Lagemaße für den Mariokart-Datensatz, s. Listing 6.2. Es ist übrigens egal, wie sie die Variablen benennen, die Sie berechnen: mw oder mittelwert oder mean oder mein_krasser_variablenname – alles okay!

Listing 6.2: Syntax zur Berechnung von Lagemaßen
mariokart_lagemaße_total_pr <-
  mariokart %>% 
  summarise(mw = mean(total_pr),
            md = median(total_pr),
            q1 = quantile(total_pr, .25),
            q2 = quantile(total_pr, .5),
            q3 = quantile(total_pr, .75),
            min = min(total_pr),
            max = max(total_pr))
mariokart_lagemaße_total_pr

6.5.1 Gruppierte Lagemaße

Häufig möchte man Statistiken wie Lagemaße für mehrere Teilgruppen – z.B. Mittlere Körpergröße von Frauen vs. Mittlere Körpergröße von Männer – berechnen und dann vergleichen. Die zugrundeliegende stehende Forschungsfrage könnte lauten:

Unterscheidet sich die mittlere Körpergröße von Frauen und Männern?

Oder vielleicht:

Hat das Geschlecht einen Einfluss auf die Körpergröße?

Anders ausgedrückt:

Körpergröße \(\color{ycol}{\text{y}}\) ist eine Funktion des Geschlechts \(\color{xcol}{G}\).

Die Modellformel könnte also lauten:

\[\color{ycol}{y} \; \color{black}{ \sim } \; \color{xcol}{G}\]

Gruppierte Lagemaße lassen sich in R z.B. so berechnen, s. Listing 6.3, also ähnlich wie in Listing 6.2.

Listing 6.3: Gruppierte Lagemaße
mariokart_lagemaße_gruppiert <-
  mariokart %>% 
  group_by(wheels) %>%  # neue Zeile, der Rest ist gleich!
  summarise(mw = mean(total_pr))

mariokart_lagemaße_gruppiert

Abbildung 6.11 zeigt ein Beispiel für ungruppierte (links) bzw. gruppierte (rechts) Mittelwerte; vgl. Abbildung 6.3. Wie man in dem Diagramm sieht, kann das Residuum kleiner werden bei einer Gruppierung (im Vergleich zu einem ungruppierten, “globalen” Mittelwert): Innerhalb der Gruppe ohne Lenkräder und innerhalb der Gruppe mit 2 Lenkrädern sind die Abweichungen zu ihrem Gruppen-Mittelwert relativ gering – im Vergleich zu den Abweichungen der Preise zum ungruppierten Mittelwert.

(a) Mittelwert für Verkaufspreis (ungruppiert)
(b) Mittelwert für Verkaufspreis gruppiert nach Anzahl der Lenkräder
Abbildung 6.11: Der mittlere Preis von Mariokart-Spielen als horizontale Gerade eingezeichnet

Definition 6.9 (Punktmodell) Ein Modell, welches für alle Beobachtungen ein und denselben Wert annimmt (vorhersagt), heißt ein Punktmodell. Anders gesagt fasst ein Punktmodell eine Wertereihe (häufig ist das eine Tabellenspalte) zu einer einzelnen Zahl zusammen, einem “Punkt” in diesem Sinne, s. Gleichung 6.12.\(\square\)

\[\begin{array}{|c|} \hline \\ \hline \\\\\\ \hline \end{array} \qquad \rightarrow \qquad \begin{array}{|c|} \hline \\ \hline \hline \end{array} \tag{6.12}\]

Mittelwert, Median und Quartile sind Beispiele für Punktmodelle: Sie fassen eine Verteilung zu einem einzelnen Wert zusammen und geben uns ein “Bild” der Daten, machen Sie uns verständlich - sie sind uns ein Modell.

6.6 Wie man mit Statistik lügt

Mit Statistik kann man vortrefflich lügen, heißt es. Woran liegt das? Der Grund ist, dass die Statistik Freiheitsgrade lässt: Es gibt nicht nur einen richtigen Weg, um eine statistische Analyse durchzuführen. Viele Wege führen nach Rom (aber nicht alle). Um Manipulationsversuche abzuwehren oder einfache Fehler und Unschärfen ohne böse Abwehr aufzudecken, gibt es ein probates Gegenmittel: Transparenz.

Stellen Sie hohe Anforderung an die Transparenz einer statistischen Analyse. Nur durch Nachprüfbarkeit können Sie sich von der Stichhaltigkeit der Ergebnisse und deren Interpretation überzeugen.

Hier ist eine (nicht abschließende!) Checkliste, was Sie nachprüfen sollten, um die Belastbarkeit einer Analyse sicherzustellen Wicherts et al. (2016):

  1. Wurde die Art und die Zeitdauer der Datenerhebung vorab festgelegt und berichtet?
  2. Wurden ausreichend Daten gesammelt (z.B. mind. 20 Beobachtungen pro Gruppe)?
  3. Wurden alle untersuchten Variablen berichtet?
  4. Wurden alle durchgeführten Interventionen berichtet?
  5. Wurden Daten aus der Analyse entfernt? Wenn ja, gibt es eine (stichhaltige) Begründung?

6.7 Vertiefung

Beispiel 6.10 (Survival-Tipp) Eine Studentin aus dem dem Bachelorstudiengang “Angewandte Medien- und Wirtschaftspsychologie” mit Schwerpunkt Data Science berichtet ihre “Survival-Tipps” für Statistik.

  1. Wenn man mal nicht weiterkommt, hilft es auch mal ein paar Tage Abstand von R und Statistik zu nehmen.
  2. Es hilft, sich während des Semesters neue Begriffe und ihre Erklärung zusammenschreiben.
  3. Gut ist auch, sich mit KommilitonInnen auszutauschen oder in höheren Semestern nach Tipps fragen.\(\square\)

🧑‍🎓 Irgendwie kann ich mir R-Code so schlecht merken.

🧑‍🏫 Frag doch mal ChatGPT, oder einen anderen Chatbot, da bekommt man auch R-Code ausgegegeben.

Übungsaufgabe 6.10 (Übungsfragen vom Chat-Bot) Fragen Sie einen Chat-Bot wie ChatGPT nach Übungsaufgaben.

Sie können sich an folgenden Prompt orientieren. Empfehlenswert ist mit verschiedenen Prompts zu experimentieren.

🧑‍🎓 Ich bin ein Student in einem Bachelor-Studiengang für Psychologie. Gerade bereite ich mich auf die Klausur im Fach “Grundlagen der Statistik” vor. Bitte schreibe mir Aufgaben, die mir helfen, mich auf die Prüfung vorzubereiten. Die Fragen sollten folgende Themen beinhalten: Maße der zentralen Tendenz, Grundlagen von R, Skalenniveau (z.B. Nominalskala vs. Intervallskala), Verteilungsformen, Normalverteilungen, z-Werte. Bitte schreibe die Aufgabe im Stil von Richtig-Falsch-Aufgaben. Schreibe ca. 10 Aufgaben.

\(\square\)

6.8 Aufgaben

Ein Teil der folgenden Aufgaben kann Stoff beinhalten, den Sie noch nicht kennen, aber später kennenlernen. Ignorieren Sie daher Aufgaben(teile) mit (noch) unbekannte Stoff.

Die Webseite datenwerk.netlify.app stellt eine Reihe von einschlägigen Übungsaufgaben bereit. Sie können die Suchfunktion der Webseite nutzen, um die Aufgaben mit den folgenden Namen zu suchen:

  1. Kennwert-robust
  2. mw-berechnen
  3. mariokart-max2
  4. nasa01
  5. mariokart-mean1
  6. wrangle10
  7. summarise01
  8. mariokart-max1
  9. Schiefe1
  10. mariokart-mean2
  11. summarise03
  12. mariokart-mean4
  13. mariokart-mean3
  14. summarise02
Tipp

Schauen Sie sich auch mal auf datenwerk.netlify.app die Aufgaben zu z.B. dem Tag EDA an. \(\square\)

Übungsaufgabe 6.11 Mittlerweile verfügen Sie die wesentlichen Werkzeuge des Datenjudo. Hier finden Sie einen Überblick an Datensätze, die Sie nach Herzenslust analysieren können.7 \(\square\)

6.9 Literaturhinweise

Es gibt viele Lehrbücher zu den Grundlagen der Statistik; die Inhalte dieses Kapitels gehören zu den Grundlagen der Statistik. Vielleicht ist es am einfachsten, wenn Sie einfach in Ihrer Bibliothek des Vertrauens nach einem typischen Lehrbuch schauen. Beispiel für Lehrbücher sind Mittag & Schüller (2020) oder Oestreich & Romberg (2014); ein Klassiker ist Bortz & Schuster (2010). Ein Fokus auf R legt Sauer (2019). Wer vor Englisch nicht zurückschreckt, ist mit Cetinkaya-Rundel & Hardin (2021) oder Poldrack (2022) gut beraten. Beide Bücher sind online verfügbar. Tipp: Mit dem Browser einfach auf Deutsch übersetzen.


  1. https://en.wikipedia.org/wiki/Average_human_height_by_country↩︎

  2. 316500€↩︎

  3. Quelle: https://www.transfermarkt.de/spieler-statistik/wertvollstespieler/marktwertetop, Abruf 2023-03-19↩︎

  4. Quelle: https://www.einkommenmagazin.de/kylian-mbappe-einkommen/, Abruf 2023-03-19↩︎

  5. Er bleibt gleich, verändert sich also nicht: Der Median ist robust, er verändert sich nicht oder kaum, wenn Extremwerte vorliegen.↩︎

  6. ca. 83600€↩︎

  7. https://data-se.netlify.app/2022/02/23/data-sets-for-for-teaching/↩︎