7  Modellgüte

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

7.1 Lernsteuerung

Abbildung 1.3 zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.

7.1.1 Lernziele

  • Sie kennen gängige Maße der Streuung einer Stichprobe und können diese definieren und mit Beispielen erläutern.
  • Sie können gängige Maße der Streuung einer Stichprobe mit R berechnen.
  • Sie können die Bedeutung von Streuung für die Güte eines Modells erläutern.

7.1.2 Benötigte R-Pakete

In diesem Kapitel benötigen Sie folgende R-Pakete.

7.1.3 Benötigte Daten

mariokart <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")

7.1.4 Zum Einstieg

Übungsaufgabe 7.1 (Freiwillige vor!) Für diese kleine Live-Demonstration brauchen wir einige Freiwillige. Die Lehrkraft teilt die Freiwilligen in zwei Gruppen, Gruppe Gleich-Groß und Gruppe Verschieden-Groß. Erkennen Sie, dass die Unterschiedlichkeit der Größe in Gruppe Gleich-Groß gering ist, aber in Gruppe Verschieden-Groß hoch? \(\square\)

7.2 Warum Sie die Streuung Ihrer Daten kennen sollten

7.2.1 Die Schlankheitspille von Prof. Weiss-Ois

Prof. Weiss-Ois hat eine Erfindung gemacht, eine Schlankheitspille💊 (flaticon, 2024).

Was er sagt: “Ich habe eine Schlankheitspille entwickelt, die pro Einnahme das Gewicht im Schnitt um 1kg reduziert!”

 

Was er NICHT sagt: “Allerdings streuten die Werte der Gewichtsveränderung um 10kg um den Mittelwert herum.”
Abbildung 7.1

Würden Sie die Pille von Prof. I. Ch. Weiss-Ois nehmen?

  1. ja, ich zahle 1000 Euro!
  2. ja
  3. nein
  4. Nur wenn ich 100 Euro bekomme
  5. Okay, für 1000 Euro\(\square\)
Wichtig

Wie sehr die Werte eines Modells streuen, ist eine wichtige Information.\(\square\)

7.2.2 Wie man seine Kuh über den Fluss bringt

Treffen sich zwei Bauern, Fritz Furchenzieher und Karla Kartoffelsack. Fritz will mit seiner Kuh einen Fluss überqueren, nur kann die Kuh nicht schwimmen (ob es Fritz kann, ist nicht überliefert).

👨‍🌾 (Fritz): Sag mal, Karla, ist der Fluss tief?

👩‍🌾 (Karla): Nö, im Schnitt nur einen Meter.

Also führt Fritz seine Kuh durch den Fluss, leider kam die Kuh nicht am anderen Ufer an, im Floß ersoffen, s. Abbildung 7.2.

Abbildung 7.2: Der Fluss ist im Schnitt nur einen Meter tief, trotzdem ist die Kuh ersoffen.

👩‍🌾 (Karla): Übrigens, Lagemaße sagen nicht alles, Fritz.

👨‍🌾 (Fritz): Läuft die Kuh durch den Fluss, kann sie schwimmen oder ’s ist Schluss.

Wichtig

Die Streuung ihrer Daten zu kennen ist eine wesentliche Information. \(\square\)

7.3 Woran erkennt man ein gutes Modell?

Abbildung 7.3 zeigt ein einfaches Modell (Mittelwert) mit wenig Streuung (links) vs. ein einfaches Modell mit viel Streuung (rechts). Links ist die Streuung der Schlankheitspille Dicktableitin und rechts von der Schlankheitspille Pfundafliptan abgetragen. Die vertikalen grauen Balken in Abbildung 7.3 kennzeichnen den (absoluten) Abstand von jeweils einem Datenpunkt zum Mittelwert (horizontale orange Linie). Je länger die vertikalen ‘Abstandsbalken’ insgesamt, desto größer die Streuung.”

Abbildung 7.3: Wenig (links) vs. viel Streuung (rechts).

Bei einem Modell mit wenig Streuung liegen die tatsächlichen, beobachtete Werte (\(y\)) nah an den Modellwerten (vorhergesagten Werten, \(\hat{y}\)); die Abweichungen \(e = y - \hat{y}\) sind also gering (der Modellfehler ist klein). Bei einem Modell mit viel Streuung ist der Modellfehler \(e\) (im Vergleich dazu) groß.

Beispiel 7.1 (Daten zur Schlankheitskur von Prof. Weiss-Ois) In Abbildung 7.3 sind die Daten zu der Gewichtsveränderung nach Einnahme von “Schlankheitspillen” zweier verschiedener Präparate. Wie man sieht unterscheidet sich die typische (vorhergesagte) Gewichtsveränderung zwischen den beiden Präparaten kaum. Die Streuung allerdings schon. Links sieht man die Gewichtsveränderungen nach Einnahme des Präparats “Dickableibtin extra mild” (c) und rechts das Präparat von Prof. Weiss-Ois “Pfundafliptan Forte”. Welches Präparat würden Sie lieber einnehmen?\(\square\)

Wichtig

Wir wollen ein präzises Modell, also kurze Fehlerbalken: Das Modell soll die Daten gut erklären, also wenig vom tatsächlichen Wert abweichen. Jedes Modell sollte Informationen über die Präzision des Modellwerts bzw. der Modellwerte (Vorhersagen) angeben. Ein Modell ohne Angaben der Modellgüte, d.h. der Präzision der Schätzung des Modellwerts, ist wenig nütze.\(\square\)

🧑‍🎓 Ich frage mich, ob man so ein Modell nicht verbessern kann?

🧑‍🏫 Die Frage ist, was wir mit “verbessern” meinen?

🧑‍🎓 Naja, kürzere Fehlerbalken, ist doch klar!

Im Beispiel von Marikoart: Da die Anzahl der Lenkräder mit dem Verkaufsgebot zusammenhängt, könnte es vielleicht sein, dass wir die Lenkräder-Anzahl da irgendwie nutzen könnten. Das sollten wir ausprobieren. Abbildung 7.4 zeigt, dass die Fehlerbalken kürzer werden, wenn wir ein (sinnvolles) komplexeres Modell finden. Innerhalb jeder der beiden Gruppen (mit 2 Lenkrädern vs. mit 0 Lenkrädern) sind die Fehlerbalken jeweils im Durchschnitt kürzer (rechtes Teildiagramm) als im Modell ohne Gruppierung (linkes Teildiagramm). Aus Gründen der Übersichtlichkeit wurden nur Autos mit Verkaufsgebot von weniger als 100 Euros berücksichtigt und nur Spiele mit 0 oder mit 2 Lenkrädern.

(a) Fehlerbalken im einfachen Modell: Ein Mittelwert; viel Streuung insgesamt. y ~ 1
(b) Fehlerbalken im komplexen Modell: Zwei Mittelwerte; weniger Streuung in jeder Gruppe. Das erkennt man daran, dass die vertikalen, grauen Abstandsbalken im Schnitt kürzer sind als im einfachen Modell (links). y ~ G
Abbildung 7.4: Fehlerbalken in einem einfachen und komplexeren Modell
Wichtig

Durch sinnvolle, komplexere Modelle sinkt die Fehlerstreuung eines Modells.\(\square\)

7.4 Streuungsmaße

Definition 7.1 (Streuungsmaße) Ein Streuungsmaß quantifiziert die Variabilität (Unterschiedlichkeit, Streuung) eines Merkmals. \(\square\)

Definition 7.2 Ein einfaches Streuungsmaß ist der Range \(R\), definiert als Abstand von größtem und kleinsten Wert eines Merkmals \(X: R = X_{max} - X_{min}. \square\)

Beispiel 7.2 Angenommen, wir haben einen Datensatz zum Merkmal “Alter” mit den Werte 1, 23, 42, 100. Dann beträgt der Range: \(R = 100 - 1 = 99\). Das bedeutet, dass die Werte des Merkmals über 99 Einheiten (Jahre in diesem Fall) verteilt sind. \(\square\)

Dieses Mermals ist aber nicht robust (gegenüber Extremwerten) und sollte daher nur mit Einschränkung verwendet werden.

7.4.1 Der mittlere Abweichungsbalken

🧑‍🎓 Wir müssen jetzt mal präziser werden! Wie können wir die Streuung berechnen?

🧑‍🏫 Gute Frage! Am einfachsten ist es, wenn wir die mittlere Länge eines Abweichungsbalkens ausrechnen.

Legen wir (gedanklich) alle Abweichungsbalken \(e\) aneinander und teilen durch die Anzahl \(n\) der Balken, so erhalten wir wir den “mittleren Abweichungsbalken”, den wir mit \(\bar{e}\) bezeichnen könnten. Diesen Kennwert bezeichnet man als Mean Absolute Error (MAE) bzw. als Mittlere Absolutabweichung (MAA). Er ist so definiert, s. Gleichung 7.1.

\[{\displaystyle \mathrm {MAE} ={\frac {\sum _{i=1}^{n}\left|y_{i}-\bar{y}\right|}{n}}={\frac {\sum _{i=1}^{n}\left|e_{i}\right|}{n}}=\bar{e}.} \tag{7.1}\]

Definition 7.3 (Mittlere Absolutabweichung) Die Mittlere Absolutabweichung (MAA, MAE) ist definiert als die Summe der Absolutwerte der Differenzen eines Messwerts zum Mittelwert, geteilt durch die Anzahl der Messwerte. (Wenn man solche Sätze liest, fühlt sich die Formel fast einfacher an.)\(\square\)

Beispiel 7.3 Abbildung 7.5 visualisiert ein einfaches Beispiel zum MAE. Rechnen wir den MAE für das Beispiel von Abbildung 7.5 aus:

\(MAE = \frac{1 + |- 3| + 1 + 1}{4} = 6/4 = 1.5 \quad \square\)

Abbildung 7.5: Abweichungsbalken und der MAE

Natürlich können wir R auch die Rechenarbeit überlassen.

🤖 Loving it!!

Schauen Sie: Den Mittelwert (s. Abbildung 7.5) kann man doch mit Fug und Recht als ein lineares Modell, eine Gerade, betrachten, oder nicht? Schließlich erklären wir \(y\) anhand einer Gerade (die parallel zur X-Achse ist).

In R gibt es einen Befehl für ein lineares Modell, er heißt lm.

Die Syntax von lm() lautet:

lm(y ~ 1, data = meine_daten).

In Worten:

Hey R, berechne mit ein lineares Modell zur Erklärung von Y. Aber verwende keine andere Variable zur Erklärung von Y, sondern nimm den Mittelwert von Y.

lm1 <- lm(y ~ 1, data = d)

Den MAE können wir uns jetzt so ausgeben lassen:

mae(lm1)
## [1] 1.5

7.4.2 Der Interquartilsabstand

Der Interquartilsabstand (IQA; engl. inter quartile range, IQR) ist ein Streuungsmaß, das nicht auf dem Mittelwert aufbaut. Der IQR ist robuster als z.B. der MAA oder die Varianz und die Standardabweichung.

Definition 7.4 (Interquartilsabstand) Der Interquartilsabstand ist definiert als der die (absolute) Differenz vom 3. Quartil und 1. Quartil: \(IQR = Q_3-Q_1. \; \square\)

Beispiel 7.4 (IQR im Hörsaal) In einem Statistikkurs betragen die Quartile der Körpergröße: Q1: 1.65m, Q2 (Median): 1,70m, Q3: 1.75m. Der IQR beträgt dann: \(IQR = Q_3-Q_1 = 1.75m - 1.65m = 0.10m\), d.h. 10 cm.\(\square\)

Abbildung 7.6 stellt den IQR (und einige Quantile) für den Verkaufspreise von Mariokart-Spielen dar.

(a) Histogramm
(b) Dichtediagramm
Abbildung 7.6: IQR, Q1, Q2 und Q3 für das Schlussgebot (nur Spiele für weniger als 100 Euro)

7.4.3 Streuungsmaße für Normalverteilungen

Normalverteilungen sind recht häufig anzutreffen in der Praxis der Datenanalyse. Daher lohnt es sich, zu überlegen, wie man diese Verteilungen gut zusammenfasst. Man kann zeigen, dass eine Normalverteilung sich komplett über ihren Mittelwert sowie ihre Standardabweichung beschreiben lässt (Lyon, 2014). Außerdem gilt: Sind Ihre Daten normalverteilt, dann sind die Abweichungen vom Mittelwert auch normalverteilt. Denn wenn man eine Konstante zu einer Verteilung addiert (bzw. subtrahiert), “verschiebt man den Berg” ja nur zur Seite, ohne seine Form zu verändern, s. Abbildung 7.11.

Hinweis

Hat man normalverteilte Variablen/Abweichungen/Residuen, so ist die Standardabweichung (engl. standard deviation, SD, \(\sigma, s\)) eine komfortable Maßeinheit der Streuung, denn damit lässt sich die Streuung (Abweichung vom Mittelwert, Residuen) der Normalverteilung gut beschreiben.\(\square\)

🧑‍🎓 Aber wie berechnet man jetzt diese Standardabweichung?

🧑‍🏫 Moment, noch ein kurzer Exkurs zur Varianz …

🧑‍🎓 (seufzt)

7.4.4 Varianz

7.4.4.1 Intuition

Hinweis

Die Varianz einer Variable (z.B. Verkaufspreis von Mariokart) ist, grob gesagt, der typische Abstand eines Verkaufspreis vom mittleren Verkaufspreis.\(\square\)

Abbildung 7.9 illustriert die Varianz:

  1. Man gehe von der Häufigkeitsverteilung der Daten aus.
  2. Betrachtet man die Daten als Gewichte auf einer Wippe, so ist der Schwerpunkt der Wippe der Mittelwert.
  3. Man bilde Quadrate für jeden Datenpunkt mit der Kantenlänge, die dem Abstand des Punktes zum Mittelwert entspricht.
  4. Die Quadrate quetscht man jetzt wo nötig in rechteckige Formen (ohne dass sich die Fläche ändern darf) und verschiebt sie, bis sich alle Formen zu einem Rechteck mit Seitenlänge \(n\) und \(\sigma^2\) anordnen.
Abbildung 7.7: Illustration zur Varianz als “mittlerer Quadratfehler” (Cmglee, 2015)

Abbildung 7.8 visualisiert die Varianz für Beispiel 7.3.1

Links sind die Abweichungsquadrate dargestellt, rechts die Varianz als “typisches Abweichungsquadrat”.

Hinweis

Die Varianz ist also ein Maß, das die typische Abweichung der Beobachtungen vom Mittelwert in eine Zahl fasst.\(\square\)

(a) Quadrierte Fehlerbalken
(b) Varianz als ‘typischer’ Fehlerbalken
Abbildung 7.8: Sinnbild zur Varianz als typischer Fehlerbalken

Beispiel 7.5 Sie arbeiten immer noch bei einem Online-Auktionshaus und untersuchen den Verkauf von Videospielen. Natürlich mit dem Ziel, dass Ihre Firma mehr von dem Zeug verkaufen kann.

Dazu berechnen Sie die Streuung in den Verkaufspreisen, s. Listing 7.1. \(\square\)

Listing 7.1: Berechnung der Streuung des Verkaufpreises als Indikatoren für die Modellgüte des Mittelwerts.
mariokart_no_extreme <-
  mariokart %>%
  filter(total_pr < 100)  # ohne Extremwerte

m_summ <- 
  mariokart_no_extreme %>% 
  summarise(
    pr_mw = mean(total_pr),
    pr_iqr = IQR(total_pr),
    pr_maa = mean(abs(total_pr - mean(total_pr))),
    pr_var = var(total_pr),
    pr_sd = sd(total_pr))
pr_mw pr_iqr pr_maa pr_var pr_sd
47.43 12.99 7.20 83.06 9.11

Statistiken sind ja schön … aber Bilder sind auch gut, s. Abbildung 7.9. Datendiagramme eignen sich gut, um (grob) die Streuung einer Variable zu erfassen.

mariokart %>% 
  mariokart %>% 
  select(total_pr) %>% 
  filter(total_pr < 100) %>%  # ohne Extremwerte
  plot_density()
(a) Dichtediagramm mit MW±SD in roter Farbe
(b) Violindiagramm mit MW±SD in roter Farbe
Abbildung 7.9: Die Verteilung des Verkaufspreises von Mariokart-Spielen

Wer sich die Berechnung von Hand für pr_maa sparen möchte (s. Listing 7.1), kann die Funktion MeanAD aus dem Paket DescTools nutzen.

7.4.4.2 Kochrezept für die Varianz

Um die Standardabweichung zu berechnen, berechnet man zunächst die Varianz, \(s^2\) abgekürzt. Hier ist ein “Kochrezept” (Algorithmus) zur Berechnung der Varianz:

  1. Für alle Datenpunkte \(x_i\): Berechne die Abweichungen vom Mittelwert, \(\bar{x}\)
  2. Quadriere diese Werte
  3. Summiere dann auf
  4. Teile durch die Anzahl \(N\) der Werte

Als Formel ausgedrückt, lautet die Definition der Varianz einer Stichprobe wie folgt, s. Gleichung 7.2 (hier geht es um die sog. unkorrigierte Stichprobenvarianz; um anhand einer Stichprobe die Varianz der zugehörigen Population zu schätzen, teilt man nicht durch \(N\), sondern durch \(N-1\)) .

\[{\displaystyle s^{2}={\frac {1}{N}}\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}={\frac {1}{N}}\sum _{i=1}^{n}e_i^{2}.} \tag{7.2}\]

Definition 7.5 (Varianz) Die Varianz (\(s^2, \sigma^2\)) ist definiert als der Mittelwert der quadrierten Abweichungen, \(e_i^2\), (vom Mittelwert).\(\square\)

Die Varianz steht im engen Verhältnis zur Kovarianz, s. Kapitel 8.3. Die Varianz kann auch verstehen als den mittleren Quadratfehler (Mean Squared Error, MSE) eines Modells, s. Gleichung 7.3.

\[{\displaystyle MSE={\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-{\hat {y}}\right)^{2}.} \tag{7.3}\]

Im Fall eines Punktmodells ist der Mittelwert der vorhergesagte Wert eines Modells.

7.4.5 Die Standardabweichung

Kennt man die Varianz, so lässt sich die Standardabweichung einfach als Quadratwurzel der Varianz berechnen.

Definition 7.6 (Standardabweichung) Die Standardabweichung (SD, s, \(\sigma\)) ist definiert als die Quadratwurzel der Varianz, s. Gleichung 7.4.

\[s := \sqrt{s^2} \square \tag{7.4}\]

Durch das Wurzelziehen besitzt die Standardabweichung wieder in etwa die gleiche Größenordnung wie die Daten (im Gegensatz zur Varianz, die durch das Quadrieren sehr groß werden kann).

Aus einem Modellierungsblickwinkel kann man die SD definieren als die Wurzel von MSE. Dann nennt man sie Root Mean Squared Error (RMSE): \(RMSE := \sqrt{MSE}\).

Hinweis

Die SD ist i.d.R. ungleich zur MAE, aber (fast) gleich zur RMSE. Entsprechend ist die Varianz (fast) gleich zur MSE.\(\square\)

Beispiel 7.6 Sie arbeiten weiter an Ihrem Mariokart-Projekt. Da Sie heute keine Lust auf viel Tippen haben, nutzen Sie das R-Paket easystats mit der Funktion describe_distribution, s. Tabelle 7.1.

library(easystats)

mariokart %>% 
  select(total_pr) %>% 
  describe_distribution()
Tabelle 7.1: Ausgabe der Funktion describe_distribution (Auszug)

🧑‍🎓 Ah! Das war einfach. Reicht auch mal für heute.\(\square\)

Beispiel 7.7 Ihr Job als Datenanalyst ist anstrengend, aber auch mitunter interessant. So auch heute. Bevor Sie nach Hause gehen, möchten Sie noch eine Sache anschauen. In einer früheren Analyse (s. Abbildung 7.4) fanden Sie heraus, dass die Fehlerbalken kürzer werden, wenn man ein geschickteres und komplexeres Modell findet. Das wollen Sie natürlich prüfen. Sie überlegen: “Okay, ich will ein einfaches Modell, in dem der Mittelwert das Modell des Verkaufspreis sein soll.”

Das spezifizieren Sie so:

lm1 <- lm(total_pr ~ 1, data = mariokart)
mae(lm1)
## [1] 10

Im nächsten Schritt spezifizieren Sie ein Modell, in dem der Verkaufpreis eine Funktion der Anzahl der Lenkräder ist (ähnlich wie in Abbildung 7.4):

lm2 <- lm(total_pr ~ wheels, data = mariokart)
mae(lm2)
## [1] 7.4

Ah! Sehr schön, Sie haben mit lm2 ein besseres Modell als einfach nur den Mittelwert gefunden. Ab nach Hause!\(\square\)

7.5 Streuung als Modellfehler

Wenn wir den Mittelwert als Punktmodell des Verkaufpreises auffassen, so kann man die verschiedenen Kennwerte der Streuung als verschiedene Kennwerte der Modellgüte auffassen.

Definieren wir zunächst als Punktmodell auf Errisch:

lm_mario1 <- lm(total_pr ~ 1, data = mariokart)

Zur Erinnerung: Wir modellieren total_pr ohne Prädiktoren, sondern als Punktmodell, und zwar schätzen wir den Mittelwert mit den Daten mariokoart.

Das (Meta-)Paket easystats bietet komfortable Befehle, um die Modellgüte zu berechnen:

mae(lm_mario1)  # Mean absolute error
## [1] 10
mse(lm_mario1)  # Mean squared error
## [1] 655
rmse(lm_mario1)  # Root mean squared error
## [1] 26

7.6 z-Transformation

Sie arbeiten immer noch als Datenknecht, Moment, Datenhecht bei dem Online-Auktionshaus. Heute untersuchen Sie die Frage, wie gut sich die Verkaufspreise mit einer einzigen Zahl, dem mittleren Verkaufspreis, beschreiben lassen. Einige widerspenstige Werte haben Sie dabei einfach des Datensatzes verwiesen. Schon ist das Leben leichter, s. mariokart_no_extreme.

mariokart_no_extreme <- 
  mariokart %>% 
  filter(total_pr < 100)

Abbildung 7.10 (links) zeigt, dass es einige Streuung um den Mittelwert herum gibt. Abbildung 7.10 (rechts) zeigt die (um den Mittelwert) zentrierten Daten.

(a) Wie nah drängen sich die Verkaufspreise um ihren Mittelwert?
(b) Abweichungen vom Mittelwert: zentrierte Daten
Abbildung 7.10: Verteilung von mariokart_no_extreme

Tja, das ist doch etwas Streuung um den Mittelwert herum.

Wichtig

Je weniger Streuung um den Mittelwert (ca. 47 Euro) herum, desto besser eignet sich der Mittelwert als Modell für die Daten, bzw. desto höher die Modellgüte.\(\square\)

Ja, es ist etwas Streuung, aber wie viel? Kann man das genau angeben? Sie überlegen … und überlegen. Da! Eine Idee!

Man könnte vielleicht angeben, wie viel Euro jedes Spiel vom Mittelwert entfernt ist. Je größer diese Abweichung, desto schlechter die Modellgüte! Also rechnen Sie diese Abweichung aus.

mariokart_no_extreme <-
  mariokart_no_extreme %>% 
  mutate(abw = 47.4 - total_pr)

Anders gesagt: Wir haben die Verkaufspreise zentriert.

Definition 7.7 (Zentrieren) Zentrieren bedeutet, von jedem Wert einer Verteilung \(X\) den Mittelwert abzuziehen. Daher ist der neue Mittelwert (der zentrierten Verteilung) gleich Null. \(\square\)

Abbildung 7.11: Die Abweichungen zum Mittelwert (MW) einer normalverteilten Variable sind selber normalverteilt

Aber irgendwie sind Sie noch nicht am Ziel Ihrer Überlegungen: Woher weiß man, ob 10 Euro oder 20 Euro “viel” Abweichung vom Verkaufspreis ist? Man müsste die Abweichung eines Verkaufpreis zu irgendetwas in Bezug setzen. Wieder! Ein Geistesblitz! Man könnte doch die jeweilige Abweichung in Bezug setzen zur mittleren (absoluten) Abweichung (MAA)! Ein alternativer, ähnlicher Kennwert zur mittlerer absolute Abweichung ist die SD. Sie haben gehört, dass die SD gebräuchlicher ist als die MAA. Um sich als Checker zu präsentieren, berechnen Sie also auch die SD; die beiden Koeffizienten sind ja ähnlich.

Also: Wenn ein Spiel 10 Euro vom Mittelwert abweicht und die SD 10 Euro betragen sollte, dann hätten wir eine “standardisierte” (abgekürzt manchmal mit std) Abweichung von 1, weil 10/10=1.

Begeistert über Ihre Schlauheit machen Sie sich ans Werk.

mariokart_no_extreme <-
  mariokart_no_extreme %>% 
  mutate(abw_std = abw / sd(abw),  # std wie "standardisiert"
         abw_std2 = abw / mean(abs(abw)))  

Zufrieden betrachten Sie Ihr Werk, s. Abbildung 7.12. In Abbildung 7.12 sieht man oben die Rohwerte und unten die transformierten Werte, die wir hier als standardisiert bezeichnen, da wir sie in Bezug zur “typischen Abweichung”, der SD, gesetzt haben.

Abbildung 7.12: Standardisierung von Abweichungswerten bzw. einer Verteilung; der vertikale Balken zeigt den Mittelwert

Wir fassen die Schritte unserer Umrechnung (“Transformation”) zusammen wie in einem Kochrezept:

  1. Nimm die Verteilung der Verkaufspreise
  2. Berechne die Abweichungen vom mittleren Verkaufspreis (Differenz Mittelwert und jeweiliger Verkaufspreis)
  3. Teile die Abweichungen (Schritt 2) durch die SD

Diese Art von Transformation bezeichnet man als z-Transformation und die resultierenden Werte als z-Werte.

Definition 7.8 (z-Werte) z-Werte sind das Resultat der z-Transformation. Für die Variable \(X\) berechnet sich der z-Wert der \(i\)-ten Beobachtung so: \(z_i = \frac{x_i - \bar{x}}{sd_x}.\square\)

z-Werte sind nützlich, weil sie die “relative” Abweichung einzelner Beobachtungen vom Mittelwert anzeigen.

Nach einer Faustregel spricht man von extremen Abweichungen (Extremwerten, Ausreißern), wenn \(z_i > 2\) oder \(z_i > 3\).

7.7 Fazit

Der “gesunde Menschenverstand” würde spontan den mittleren Absolutabstand (MAA oder MAE) der Varianz (oder der Standardabweichung, SD) vorziehen. Das ist vernünftig, denn die MAA ist anschaulicher und damit nützlicher als die Varianz und die SD.

Warum sollte man überhaupt ein unanschauliches Maß wie die Varianz verwenden? Wenn es nur um deskriptive Statistik geht, braucht man die Varianz (oder die SD) nicht unbedingt. Gründe, warum Sie die Varianz (bzw. SD) kennen und nutzen sollten, sind:

  • Die SD ist sehr nützlich zur Beschreibung der Normalverteilung
  • Die Varianz wird häufig verwendet bzw. in Forschungsarbeiten berichtet, also müssen Sie die Varianz kennen.

Liegen Extremwerte vor, kann es vorteilhafter sein, den IQR vorzuziehen gegenüber Mittelwert basierten Streuungsmaßen (MAA, Varianz, SD).

7.8 Aufgaben

7.8.1 Datenwerk

Die Webseite datenwerk.netlify.app stellt eine Reihe von einschlägigen Übungsaufgaben bereit. Sie können die Suchfunktion der Webseite nutzen, um die Aufgaben mit den folgenden Namen zu suchen:

Übungsaufgabe 7.2 (Analysieren Sie den Datensatz zur Handynutzung)  

Das ist die Forschungsfrage dieser Umfrage. Nehmen Sie ggf. an dieser Umfrage teil (sie ist anonym und dauert drei Minuten).

Laden Sie den Datensatz zur Handynutzung von Google-Docs herunter.2 Berechnen Sie dann gängige deskriptive Statistiken und visualisieren Sie sie. \(\square\)

7.8.2 Lösung: Daten importieren

Sie können die Daten entweder selber herunterladen oder aber die folgende Version des Datensatzes verwenden. In beiden Fällen ist es nützlich, den (absoluten oder relativen) Pfad anzugeben:

data_path <- "https://raw.githubusercontent.com/sebastiansauer/statistik1/main/daten/Smartphone-Nutzung%20(Responses)%20-%20Form%20responses%201.csv"

Dann können Sie die Daten wie gewohnt importieren:

smartphone_raw <- read.csv(data_path)

7.8.3 Lösung: Daten aufbereiten

Die Spaltennamen sind sehr unschön. Lassen Sie uns daher die Spaltennamen umbenennen (aber vorab sichern):

item_labels <- names(smartphone_raw)

names(smartphone_raw) <- paste0("item",1:ncol(smartphone_raw))

Check:

glimpse(smartphone_raw)
## Rows: 70
## Columns: 18
## $ item1  <chr> "21/03/2024 15:36:52", "05/04/2024 10:24:58", "05/04/2024 10…
## $ item2  <chr> "15:31:00", "10:23:00", "10:40:00", "11:14:00", "12:33:00", …
## $ item3  <int> 3, 4, 3, 3, 5, 5, 5, 5, 1, 2, 5, 3, 2, 2, 2, 5, 3, 1, 2, 4, …
## $ item4  <int> 5, 3, 3, 3, 4, 3, 3, 6, 2, 4, 5, 1, 1, 2, 3, 3, 4, 3, 2, 4, …
## $ item5  <int> 3, 3, 1, 5, 1, 3, 2, 4, 3, 2, 1, 1, 1, 4, 1, 2, 2, 1, 1, 1, …
## $ item6  <int> 4, 2, 4, 3, 5, 4, 6, 3, 2, 5, 6, 4, 2, 6, 5, 5, 5, 5, 5, 4, …
## $ item7  <int> 4, 3, 2, 3, 3, 1, 3, 2, 1, 2, 1, 1, 1, 3, 2, 2, 1, 2, 2, 2, …
## $ item8  <int> 1, 3, 1, 2, 3, 1, 1, 2, 2, 2, 1, 1, 2, 4, 1, 1, 2, 2, 1, 2, …
## $ item9  <int> 2, 6, 1, 3, 6, 5, 5, 2, 2, 5, 6, 1, 1, 5, 4, 6, 2, 4, 3, 4, …
## $ item10 <int> 2, 5, 5, 3, 4, 3, 1, 5, 1, 5, 3, 4, 3, 5, 4, 4, 4, 5, 3, 2, …
## $ item11 <int> 5, 6, 6, 5, 6, 6, 5, 6, 4, 3, 6, 4, 4, 5, 3, 6, 6, 4, 4, 5, …
## $ item12 <int> 1, 3, 1, 2, 5, 2, 4, 2, 1, 1, 3, 1, 1, 1, 1, 1, 3, 1, 1, 2, …
## $ item13 <int> 4, 3, 4, 2, 4, 2, 5, 3, 1, 1, 4, 1, 3, 4, 1, 3, 5, 2, 1, 4, …
## $ item14 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item15 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item16 <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ item17 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item18 <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …

7.8.4 Komplette Lösung

😁

7.8.5 Fallstudie zur Lebenszufriedenheit

Die OECD führt eine weltweite Studie zur Lebenszufriedenheit durch.3 Arbeiten Sie die die Fallstudie “oecd-yacsda” im Datenwerk durch, um ein tieferes Verständnis für die Lebenszufriedenheit in verschiedenen Ländern der Welt zu bekommen.

7.9 Literaturhinweise

Allen Downey (2023) stellt in seinem vergnüglich zu lesenden Buch eine kurzweilige Einführung in die Statistik vor; auch Streuungsmaße haben dabei einen Auftritt. Wer mehr “Lehrbuch-Feeling” sucht, wird bei Cetinkaya-Rundel & Hardin (2021) fündig (das Buch ist online frei verfügbar). Es ist kein Geheimnis, dass Streuungsmaße keine ganz neuen Themen in der Statistik sind. Aber hey, Oldie is Goldie, ohne Streuungsmaße geht’s nicht. Jedenfalls werden Sie in jedem Statistik-Lehrbuch, dass Sie in der Bib (oder sonst wo) aus dem Regal ziehen, fündig werden zu diesem Thema. Die Bücher unterscheiden sich meist “nur” in ihrem Anspruch bzw. der didaktischen Aufmachung; für alle ist da was dabei.


  1. Die Abweichungsquadrate wirken optisch nicht quadratisch, da die X-Achse breiter skaliert dargestellt ist als die Y-Achse. Trotzdem sind es Quadrate, nur nicht optisch, wenn Sie wissen, was ich meine…↩︎

  2. https://docs.google.com/spreadsheets/d/1SWMj4rIIIJdAsfsSKQHSg8jHr_OuKLpJx_0XV4LGnH0/edit?usp=sharing↩︎

  3. https://www.oecd.org/wise/measuring-well-being-and-progress.htm↩︎