7 Modellgüte
Statistik, Prognose, Modellierung, R, Datenanalyse, Regression
7.1 Lernsteuerung
Abbildung 1.3 zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.
7.1.1 Lernziele
- Sie kennen gängige Maße der Streuung einer Stichprobe und können diese definieren und mit Beispielen erläutern.
- Sie können gängige Maße der Streuung einer Stichprobe mit R berechnen.
- Sie können die Bedeutung von Streuung für die Güte eines Modells erläutern.
7.1.2 Benötigte R-Pakete
In diesem Kapitel benötigen Sie folgende R-Pakete.
7.1.3 Benötigte Daten
mariokart <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")
7.1.4 Zum Einstieg
Übungsaufgabe 7.1 (Freiwillige vor!) Für diese kleine Live-Demonstration brauchen wir einige Freiwillige. Die Lehrkraft teilt die Freiwilligen in zwei Gruppen, Gruppe Gleich-Groß und Gruppe Verschieden-Groß. Erkennen Sie, dass die Unterschiedlichkeit der Größe in Gruppe Gleich-Groß gering ist, aber in Gruppe Verschieden-Groß hoch? \(\square\)
7.2 Warum Sie die Streuung Ihrer Daten kennen sollten
7.2.1 Die Schlankheitspille von Prof. Weiss-Ois
Prof. Weiss-Ois hat eine Erfindung gemacht, eine Schlankheitspille💊 (flaticon, 2024).
Würden Sie die Pille von Prof. I. Ch. Weiss-Ois nehmen?
- ja, ich zahle 1000 Euro!
- ja
- nein
- Nur wenn ich 100 Euro bekomme
- Okay, für 1000 Euro\(\square\)
Wie sehr die Werte eines Modells streuen, ist eine wichtige Information.\(\square\)
7.2.2 Wie man seine Kuh über den Fluss bringt
Treffen sich zwei Bauern, Fritz Furchenzieher und Karla Kartoffelsack. Fritz will mit seiner Kuh einen Fluss überqueren, nur kann die Kuh nicht schwimmen (ob es Fritz kann, ist nicht überliefert).
👨🌾 (Fritz): Sag mal, Karla, ist der Fluss tief?
👩🌾 (Karla): Nö, im Schnitt nur einen Meter.
Also führt Fritz seine Kuh durch den Fluss, leider kam die Kuh nicht am anderen Ufer an, im Floß ersoffen, s. Abbildung 7.2.
👩🌾 (Karla): Übrigens, Lagemaße sagen nicht alles, Fritz.
👨🌾 (Fritz): Läuft die Kuh durch den Fluss, kann sie schwimmen oder ’s ist Schluss.
Die Streuung ihrer Daten zu kennen ist eine wesentliche Information. \(\square\)
7.3 Woran erkennt man ein gutes Modell?
Abbildung 7.3 zeigt ein einfaches Modell (Mittelwert) mit wenig Streuung (links) vs. ein einfaches Modell mit viel Streuung (rechts). Links ist die Streuung der Schlankheitspille Dicktableitin und rechts von der Schlankheitspille Pfundafliptan abgetragen. Die vertikalen grauen Balken in Abbildung 7.3 kennzeichnen den (absoluten) Abstand von jeweils einem Datenpunkt zum Mittelwert (horizontale orange Linie). Je länger die vertikalen ‘Abstandsbalken’ insgesamt, desto größer die Streuung.”
Bei einem Modell mit wenig Streuung liegen die tatsächlichen, beobachtete Werte (\(y\)) nah an den Modellwerten (vorhergesagten Werten, \(\hat{y}\)); die Abweichungen \(e = y - \hat{y}\) sind also gering (der Modellfehler ist klein). Bei einem Modell mit viel Streuung ist der Modellfehler \(e\) (im Vergleich dazu) groß.
Beispiel 7.1 (Daten zur Schlankheitskur von Prof. Weiss-Ois) In Abbildung 7.3 sind die Daten zu der Gewichtsveränderung nach Einnahme von “Schlankheitspillen” zweier verschiedener Präparate. Wie man sieht unterscheidet sich die typische (vorhergesagte) Gewichtsveränderung zwischen den beiden Präparaten kaum. Die Streuung allerdings schon. Links sieht man die Gewichtsveränderungen nach Einnahme des Präparats “Dickableibtin extra mild” (c) und rechts das Präparat von Prof. Weiss-Ois “Pfundafliptan Forte”. Welches Präparat würden Sie lieber einnehmen?\(\square\)
Wir wollen ein präzises Modell, also kurze Fehlerbalken: Das Modell soll die Daten gut erklären, also wenig vom tatsächlichen Wert abweichen. Jedes Modell sollte Informationen über die Präzision des Modellwerts bzw. der Modellwerte (Vorhersagen) angeben. Ein Modell ohne Angaben der Modellgüte, d.h. der Präzision der Schätzung des Modellwerts, ist wenig nütze.\(\square\)
🧑🎓 Ich frage mich, ob man so ein Modell nicht verbessern kann?
🧑🏫 Die Frage ist, was wir mit “verbessern” meinen?
🧑🎓 Naja, kürzere Fehlerbalken, ist doch klar!
Im Beispiel von Marikoart: Da die Anzahl der Lenkräder mit dem Verkaufsgebot zusammenhängt, könnte es vielleicht sein, dass wir die Lenkräder-Anzahl da irgendwie nutzen könnten. Das sollten wir ausprobieren. Abbildung 7.4 zeigt, dass die Fehlerbalken kürzer werden, wenn wir ein (sinnvolles) komplexeres Modell finden. Innerhalb jeder der beiden Gruppen (mit 2 Lenkrädern vs. mit 0 Lenkrädern) sind die Fehlerbalken jeweils im Durchschnitt kürzer (rechtes Teildiagramm) als im Modell ohne Gruppierung (linkes Teildiagramm). Aus Gründen der Übersichtlichkeit wurden nur Autos mit Verkaufsgebot von weniger als 100 Euros berücksichtigt und nur Spiele mit 0 oder mit 2 Lenkrädern.
Durch sinnvolle, komplexere Modelle sinkt die Fehlerstreuung eines Modells.\(\square\)
7.4 Streuungsmaße
Definition 7.1 (Streuungsmaße) Ein Streuungsmaß quantifiziert die Variabilität (Unterschiedlichkeit, Streuung) eines Merkmals. \(\square\)
Definition 7.2 Ein einfaches Streuungsmaß ist der Range \(R\), definiert als Abstand von größtem und kleinsten Wert eines Merkmals \(X: R = X_{max} - X_{min}. \square\)
Beispiel 7.2 Angenommen, wir haben einen Datensatz zum Merkmal “Alter” mit den Werte 1, 23, 42, 100. Dann beträgt der Range: \(R = 100 - 1 = 99\). Das bedeutet, dass die Werte des Merkmals über 99 Einheiten (Jahre in diesem Fall) verteilt sind. \(\square\)
Dieses Mermals ist aber nicht robust (gegenüber Extremwerten) und sollte daher nur mit Einschränkung verwendet werden.
7.4.1 Der mittlere Abweichungsbalken
🧑🎓 Wir müssen jetzt mal präziser werden! Wie können wir die Streuung berechnen?
🧑🏫 Gute Frage! Am einfachsten ist es, wenn wir die mittlere Länge eines Abweichungsbalkens ausrechnen.
Legen wir (gedanklich) alle Abweichungsbalken \(e\) aneinander und teilen durch die Anzahl \(n\) der Balken, so erhalten wir wir den “mittleren Abweichungsbalken”, den wir mit \(\bar{e}\) bezeichnen könnten. Diesen Kennwert bezeichnet man als Mean Absolute Error (MAE) bzw. als Mittlere Absolutabweichung (MAA). Er ist so definiert, s. Gleichung 7.1.
\[{\displaystyle \mathrm {MAE} ={\frac {\sum _{i=1}^{n}\left|y_{i}-\bar{y}\right|}{n}}={\frac {\sum _{i=1}^{n}\left|e_{i}\right|}{n}}=\bar{e}.} \tag{7.1}\]
Definition 7.3 (Mittlere Absolutabweichung) Die Mittlere Absolutabweichung (MAA, MAE) ist definiert als die Summe der Absolutwerte der Differenzen eines Messwerts zum Mittelwert, geteilt durch die Anzahl der Messwerte. (Wenn man solche Sätze liest, fühlt sich die Formel fast einfacher an.)\(\square\)
Beispiel 7.3 Abbildung 7.5 visualisiert ein einfaches Beispiel zum MAE. Rechnen wir den MAE für das Beispiel von Abbildung 7.5 aus:
\(MAE = \frac{1 + |- 3| + 1 + 1}{4} = 6/4 = 1.5 \quad \square\)
Natürlich können wir R auch die Rechenarbeit überlassen.
🤖 Loving it!!
Schauen Sie: Den Mittelwert (s. Abbildung 7.5) kann man doch mit Fug und Recht als ein lineares Modell, eine Gerade, betrachten, oder nicht? Schließlich erklären wir \(y\) anhand einer Gerade (die parallel zur X-Achse ist).
In R gibt es einen Befehl für ein lineares Modell, er heißt lm
.
Die Syntax von lm()
lautet:
lm(y ~ 1, data = meine_daten)
.
In Worten:
Hey R, berechne mit ein lineares Modell zur Erklärung von Y. Aber verwende keine andere Variable zur Erklärung von Y, sondern nimm den Mittelwert von Y.
lm1 <- lm(y ~ 1, data = d)
Den MAE können wir uns jetzt so ausgeben lassen:
mae(lm1)
## [1] 1.5
7.4.2 Der Interquartilsabstand
Der Interquartilsabstand (IQA; engl. inter quartile range, IQR) ist ein Streuungsmaß, das nicht auf dem Mittelwert aufbaut. Der IQR ist robuster als z.B. der MAA oder die Varianz und die Standardabweichung.
Definition 7.4 (Interquartilsabstand) Der Interquartilsabstand ist definiert als der die (absolute) Differenz vom 3. Quartil und 1. Quartil: \(IQR = Q_3-Q_1. \; \square\)
Beispiel 7.4 (IQR im Hörsaal) In einem Statistikkurs betragen die Quartile der Körpergröße: Q1: 1.65m, Q2 (Median): 1,70m, Q3: 1.75m. Der IQR beträgt dann: \(IQR = Q_3-Q_1 = 1.75m - 1.65m = 0.10m\), d.h. 10 cm.\(\square\)
Abbildung 7.6 stellt den IQR (und einige Quantile) für den Verkaufspreise von Mariokart-Spielen dar.
7.4.3 Streuungsmaße für Normalverteilungen
Normalverteilungen sind recht häufig anzutreffen in der Praxis der Datenanalyse. Daher lohnt es sich, zu überlegen, wie man diese Verteilungen gut zusammenfasst. Man kann zeigen, dass eine Normalverteilung sich komplett über ihren Mittelwert sowie ihre Standardabweichung beschreiben lässt (Lyon, 2014). Außerdem gilt: Sind Ihre Daten normalverteilt, dann sind die Abweichungen vom Mittelwert auch normalverteilt. Denn wenn man eine Konstante zu einer Verteilung addiert (bzw. subtrahiert), “verschiebt man den Berg” ja nur zur Seite, ohne seine Form zu verändern, s. Abbildung 7.11.
Hat man normalverteilte Variablen/Abweichungen/Residuen, so ist die Standardabweichung (engl. standard deviation, SD, \(\sigma, s\)) eine komfortable Maßeinheit der Streuung, denn damit lässt sich die Streuung (Abweichung vom Mittelwert, Residuen) der Normalverteilung gut beschreiben.\(\square\)
🧑🎓 Aber wie berechnet man jetzt diese Standardabweichung?
🧑🏫 Moment, noch ein kurzer Exkurs zur Varianz …
🧑🎓 (seufzt)
7.4.4 Varianz
7.4.4.1 Intuition
Die Varianz einer Variable (z.B. Verkaufspreis von Mariokart) ist, grob gesagt, der typische Abstand eines Verkaufspreis vom mittleren Verkaufspreis.\(\square\)
Abbildung 7.9 illustriert die Varianz:
- Man gehe von der Häufigkeitsverteilung der Daten aus.
- Betrachtet man die Daten als Gewichte auf einer Wippe, so ist der Schwerpunkt der Wippe der Mittelwert.
- Man bilde Quadrate für jeden Datenpunkt mit der Kantenlänge, die dem Abstand des Punktes zum Mittelwert entspricht.
- Die Quadrate quetscht man jetzt wo nötig in rechteckige Formen (ohne dass sich die Fläche ändern darf) und verschiebt sie, bis sich alle Formen zu einem Rechteck mit Seitenlänge \(n\) und \(\sigma^2\) anordnen.
Abbildung 7.8 visualisiert die Varianz für Beispiel 7.3.1
Links sind die Abweichungsquadrate dargestellt, rechts die Varianz als “typisches Abweichungsquadrat”.
Die Varianz ist also ein Maß, das die typische Abweichung der Beobachtungen vom Mittelwert in eine Zahl fasst.\(\square\)
Beispiel 7.5 Sie arbeiten immer noch bei einem Online-Auktionshaus und untersuchen den Verkauf von Videospielen. Natürlich mit dem Ziel, dass Ihre Firma mehr von dem Zeug verkaufen kann.
Dazu berechnen Sie die Streuung in den Verkaufspreisen, s. Listing 7.1. \(\square\)
pr_mw | pr_iqr | pr_maa | pr_var | pr_sd |
---|---|---|---|---|
47.43 | 12.99 | 7.20 | 83.06 | 9.11 |
Statistiken sind ja schön … aber Bilder sind auch gut, s. Abbildung 7.9. Datendiagramme eignen sich gut, um (grob) die Streuung einer Variable zu erfassen.
Wer sich die Berechnung von Hand für pr_maa
sparen möchte (s. Listing 7.1), kann die Funktion MeanAD
aus dem Paket DescTools
nutzen.
7.4.4.2 Kochrezept für die Varianz
Um die Standardabweichung zu berechnen, berechnet man zunächst die Varianz, \(s^2\) abgekürzt. Hier ist ein “Kochrezept” (Algorithmus) zur Berechnung der Varianz:
- Für alle Datenpunkte \(x_i\): Berechne die Abweichungen vom Mittelwert, \(\bar{x}\)
- Quadriere diese Werte
- Summiere dann auf
- Teile durch die Anzahl \(N\) der Werte
Als Formel ausgedrückt, lautet die Definition der Varianz einer Stichprobe wie folgt, s. Gleichung 7.2 (hier geht es um die sog. unkorrigierte Stichprobenvarianz; um anhand einer Stichprobe die Varianz der zugehörigen Population zu schätzen, teilt man nicht durch \(N\), sondern durch \(N-1\)) .
\[{\displaystyle s^{2}={\frac {1}{N}}\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}={\frac {1}{N}}\sum _{i=1}^{n}e_i^{2}.} \tag{7.2}\]
Definition 7.5 (Varianz) Die Varianz (\(s^2, \sigma^2\)) ist definiert als der Mittelwert der quadrierten Abweichungen, \(e_i^2\), (vom Mittelwert).\(\square\)
Die Varianz steht im engen Verhältnis zur Kovarianz, s. Kapitel 8.3. Die Varianz kann auch verstehen als den mittleren Quadratfehler (Mean Squared Error, MSE) eines Modells, s. Gleichung 7.3.
\[{\displaystyle MSE={\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-{\hat {y}}\right)^{2}.} \tag{7.3}\]
Im Fall eines Punktmodells ist der Mittelwert der vorhergesagte Wert eines Modells.
7.4.5 Die Standardabweichung
Kennt man die Varianz, so lässt sich die Standardabweichung einfach als Quadratwurzel der Varianz berechnen.
Definition 7.6 (Standardabweichung) Die Standardabweichung (SD, s, \(\sigma\)) ist definiert als die Quadratwurzel der Varianz, s. Gleichung 7.4.
\[s := \sqrt{s^2} \square \tag{7.4}\]
Durch das Wurzelziehen besitzt die Standardabweichung wieder in etwa die gleiche Größenordnung wie die Daten (im Gegensatz zur Varianz, die durch das Quadrieren sehr groß werden kann).
Aus einem Modellierungsblickwinkel kann man die SD definieren als die Wurzel von MSE. Dann nennt man sie Root Mean Squared Error (RMSE): \(RMSE := \sqrt{MSE}\).
Die SD ist i.d.R. ungleich zur MAE, aber (fast) gleich zur RMSE. Entsprechend ist die Varianz (fast) gleich zur MSE.\(\square\)
Beispiel 7.6 Sie arbeiten weiter an Ihrem Mariokart-Projekt. Da Sie heute keine Lust auf viel Tippen haben, nutzen Sie das R-Paket easystats
mit der Funktion describe_distribution
, s. Tabelle 7.1.
describe_distribution
(Auszug)
🧑🎓 Ah! Das war einfach. Reicht auch mal für heute.\(\square\)
Beispiel 7.7 Ihr Job als Datenanalyst ist anstrengend, aber auch mitunter interessant. So auch heute. Bevor Sie nach Hause gehen, möchten Sie noch eine Sache anschauen. In einer früheren Analyse (s. Abbildung 7.4) fanden Sie heraus, dass die Fehlerbalken kürzer werden, wenn man ein geschickteres und komplexeres Modell findet. Das wollen Sie natürlich prüfen. Sie überlegen: “Okay, ich will ein einfaches Modell, in dem der Mittelwert das Modell des Verkaufspreis sein soll.”
Das spezifizieren Sie so:
lm1 <- lm(total_pr ~ 1, data = mariokart)
mae(lm1)
## [1] 10
Im nächsten Schritt spezifizieren Sie ein Modell, in dem der Verkaufpreis eine Funktion der Anzahl der Lenkräder ist (ähnlich wie in Abbildung 7.4):
lm2 <- lm(total_pr ~ wheels, data = mariokart)
mae(lm2)
## [1] 7.4
Ah! Sehr schön, Sie haben mit lm2
ein besseres Modell als einfach nur den Mittelwert gefunden. Ab nach Hause!\(\square\)
7.5 Streuung als Modellfehler
Wenn wir den Mittelwert als Punktmodell des Verkaufpreises auffassen, so kann man die verschiedenen Kennwerte der Streuung als verschiedene Kennwerte der Modellgüte auffassen.
Definieren wir zunächst als Punktmodell auf Errisch:
lm_mario1 <- lm(total_pr ~ 1, data = mariokart)
Zur Erinnerung: Wir modellieren total_pr
ohne Prädiktoren, sondern als Punktmodell, und zwar schätzen wir den Mittelwert mit den Daten mariokoart
.
Das (Meta-)Paket easystats
bietet komfortable Befehle, um die Modellgüte zu berechnen:
mae(lm_mario1) # Mean absolute error
## [1] 10
mse(lm_mario1) # Mean squared error
## [1] 655
rmse(lm_mario1) # Root mean squared error
## [1] 26
7.6 z-Transformation
Sie arbeiten immer noch als Datenknecht, Moment, Datenhecht bei dem Online-Auktionshaus. Heute untersuchen Sie die Frage, wie gut sich die Verkaufspreise mit einer einzigen Zahl, dem mittleren Verkaufspreis, beschreiben lassen. Einige widerspenstige Werte haben Sie dabei einfach des Datensatzes verwiesen. Schon ist das Leben leichter, s. mariokart_no_extreme
.
Abbildung 7.10 (links) zeigt, dass es einige Streuung um den Mittelwert herum gibt. Abbildung 7.10 (rechts) zeigt die (um den Mittelwert) zentrierten Daten.
mariokart_no_extreme
Tja, das ist doch etwas Streuung um den Mittelwert herum.
Je weniger Streuung um den Mittelwert (ca. 47 Euro) herum, desto besser eignet sich der Mittelwert als Modell für die Daten, bzw. desto höher die Modellgüte.\(\square\)
Ja, es ist etwas Streuung, aber wie viel? Kann man das genau angeben? Sie überlegen … und überlegen. Da! Eine Idee!
Man könnte vielleicht angeben, wie viel Euro jedes Spiel vom Mittelwert entfernt ist. Je größer diese Abweichung, desto schlechter die Modellgüte! Also rechnen Sie diese Abweichung aus.
Anders gesagt: Wir haben die Verkaufspreise zentriert.
Definition 7.7 (Zentrieren) Zentrieren bedeutet, von jedem Wert einer Verteilung \(X\) den Mittelwert abzuziehen. Daher ist der neue Mittelwert (der zentrierten Verteilung) gleich Null. \(\square\)
Aber irgendwie sind Sie noch nicht am Ziel Ihrer Überlegungen: Woher weiß man, ob 10 Euro oder 20 Euro “viel” Abweichung vom Verkaufspreis ist? Man müsste die Abweichung eines Verkaufpreis zu irgendetwas in Bezug setzen. Wieder! Ein Geistesblitz! Man könnte doch die jeweilige Abweichung in Bezug setzen zur mittleren (absoluten) Abweichung (MAA)! Ein alternativer, ähnlicher Kennwert zur mittlerer absolute Abweichung ist die SD. Sie haben gehört, dass die SD gebräuchlicher ist als die MAA. Um sich als Checker zu präsentieren, berechnen Sie also auch die SD; die beiden Koeffizienten sind ja ähnlich.
Also: Wenn ein Spiel 10 Euro vom Mittelwert abweicht und die SD 10 Euro betragen sollte, dann hätten wir eine “standardisierte” (abgekürzt manchmal mit std
) Abweichung von 1, weil 10/10=1.
Begeistert über Ihre Schlauheit machen Sie sich ans Werk.
Zufrieden betrachten Sie Ihr Werk, s. Abbildung 7.12. In Abbildung 7.12 sieht man oben die Rohwerte und unten die transformierten Werte, die wir hier als standardisiert bezeichnen, da wir sie in Bezug zur “typischen Abweichung”, der SD, gesetzt haben.
Wir fassen die Schritte unserer Umrechnung (“Transformation”) zusammen wie in einem Kochrezept:
- Nimm die Verteilung der Verkaufspreise
- Berechne die Abweichungen vom mittleren Verkaufspreis (Differenz Mittelwert und jeweiliger Verkaufspreis)
- Teile die Abweichungen (Schritt 2) durch die SD
Diese Art von Transformation bezeichnet man als z-Transformation und die resultierenden Werte als z-Werte.
Definition 7.8 (z-Werte) z-Werte sind das Resultat der z-Transformation. Für die Variable \(X\) berechnet sich der z-Wert der \(i\)-ten Beobachtung so: \(z_i = \frac{x_i - \bar{x}}{sd_x}.\square\)
z-Werte sind nützlich, weil sie die “relative” Abweichung einzelner Beobachtungen vom Mittelwert anzeigen.
Nach einer Faustregel spricht man von extremen Abweichungen (Extremwerten, Ausreißern), wenn \(z_i > 2\) oder \(z_i > 3\).
7.7 Fazit
Der “gesunde Menschenverstand” würde spontan den mittleren Absolutabstand (MAA oder MAE) der Varianz (oder der Standardabweichung, SD) vorziehen. Das ist vernünftig, denn die MAA ist anschaulicher und damit nützlicher als die Varianz und die SD.
Warum sollte man überhaupt ein unanschauliches Maß wie die Varianz verwenden? Wenn es nur um deskriptive Statistik geht, braucht man die Varianz (oder die SD) nicht unbedingt. Gründe, warum Sie die Varianz (bzw. SD) kennen und nutzen sollten, sind:
- Die SD ist sehr nützlich zur Beschreibung der Normalverteilung
- Die Varianz wird häufig verwendet bzw. in Forschungsarbeiten berichtet, also müssen Sie die Varianz kennen.
Liegen Extremwerte vor, kann es vorteilhafter sein, den IQR vorzuziehen gegenüber Mittelwert basierten Streuungsmaßen (MAA, Varianz, SD).
7.8 Aufgaben
7.8.1 Datenwerk
Die Webseite datenwerk.netlify.app stellt eine Reihe von einschlägigen Übungsaufgaben bereit. Sie können die Suchfunktion der Webseite nutzen, um die Aufgaben mit den folgenden Namen zu suchen:
- mariokart-sd2
- mariokart-sd3
- Kennwert-robust
- summarise04
- summarise05
- vis-mariokart-variab
- sd-vergleich
- nasa01
- Streuung-Histogramm
- mariokart-sd1
- summarise06
- mariokart-desk01
Übungsaufgabe 7.2 (Analysieren Sie den Datensatz zur Handynutzung)
Das ist die Forschungsfrage dieser Umfrage. Nehmen Sie ggf. an dieser Umfrage teil (sie ist anonym und dauert drei Minuten).
Laden Sie den Datensatz zur Handynutzung von Google-Docs herunter.2 Berechnen Sie dann gängige deskriptive Statistiken und visualisieren Sie sie. \(\square\)
7.8.2 Lösung: Daten importieren
Sie können die Daten entweder selber herunterladen oder aber die folgende Version des Datensatzes verwenden. In beiden Fällen ist es nützlich, den (absoluten oder relativen) Pfad anzugeben:
data_path <- "https://raw.githubusercontent.com/sebastiansauer/statistik1/main/daten/Smartphone-Nutzung%20(Responses)%20-%20Form%20responses%201.csv"
Dann können Sie die Daten wie gewohnt importieren:
smartphone_raw <- read.csv(data_path)
7.8.3 Lösung: Daten aufbereiten
Die Spaltennamen sind sehr unschön. Lassen Sie uns daher die Spaltennamen umbenennen (aber vorab sichern):
Check:
glimpse(smartphone_raw)
## Rows: 70
## Columns: 18
## $ item1 <chr> "21/03/2024 15:36:52", "05/04/2024 10:24:58", "05/04/2024 10…
## $ item2 <chr> "15:31:00", "10:23:00", "10:40:00", "11:14:00", "12:33:00", …
## $ item3 <int> 3, 4, 3, 3, 5, 5, 5, 5, 1, 2, 5, 3, 2, 2, 2, 5, 3, 1, 2, 4, …
## $ item4 <int> 5, 3, 3, 3, 4, 3, 3, 6, 2, 4, 5, 1, 1, 2, 3, 3, 4, 3, 2, 4, …
## $ item5 <int> 3, 3, 1, 5, 1, 3, 2, 4, 3, 2, 1, 1, 1, 4, 1, 2, 2, 1, 1, 1, …
## $ item6 <int> 4, 2, 4, 3, 5, 4, 6, 3, 2, 5, 6, 4, 2, 6, 5, 5, 5, 5, 5, 4, …
## $ item7 <int> 4, 3, 2, 3, 3, 1, 3, 2, 1, 2, 1, 1, 1, 3, 2, 2, 1, 2, 2, 2, …
## $ item8 <int> 1, 3, 1, 2, 3, 1, 1, 2, 2, 2, 1, 1, 2, 4, 1, 1, 2, 2, 1, 2, …
## $ item9 <int> 2, 6, 1, 3, 6, 5, 5, 2, 2, 5, 6, 1, 1, 5, 4, 6, 2, 4, 3, 4, …
## $ item10 <int> 2, 5, 5, 3, 4, 3, 1, 5, 1, 5, 3, 4, 3, 5, 4, 4, 4, 5, 3, 2, …
## $ item11 <int> 5, 6, 6, 5, 6, 6, 5, 6, 4, 3, 6, 4, 4, 5, 3, 6, 6, 4, 4, 5, …
## $ item12 <int> 1, 3, 1, 2, 5, 2, 4, 2, 1, 1, 3, 1, 1, 1, 1, 1, 3, 1, 1, 2, …
## $ item13 <int> 4, 3, 4, 2, 4, 2, 5, 3, 1, 1, 4, 1, 3, 4, 1, 3, 5, 2, 1, 4, …
## $ item14 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item15 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item16 <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ item17 <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ item18 <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
7.8.4 Komplette Lösung
😁
7.8.5 Fallstudie zur Lebenszufriedenheit
Die OECD führt eine weltweite Studie zur Lebenszufriedenheit durch.3 Arbeiten Sie die die Fallstudie “oecd-yacsda” im Datenwerk durch, um ein tieferes Verständnis für die Lebenszufriedenheit in verschiedenen Ländern der Welt zu bekommen.
7.9 Literaturhinweise
Allen Downey (2023) stellt in seinem vergnüglich zu lesenden Buch eine kurzweilige Einführung in die Statistik vor; auch Streuungsmaße haben dabei einen Auftritt. Wer mehr “Lehrbuch-Feeling” sucht, wird bei Cetinkaya-Rundel & Hardin (2021) fündig (das Buch ist online frei verfügbar). Es ist kein Geheimnis, dass Streuungsmaße keine ganz neuen Themen in der Statistik sind. Aber hey, Oldie is Goldie, ohne Streuungsmaße geht’s nicht. Jedenfalls werden Sie in jedem Statistik-Lehrbuch, dass Sie in der Bib (oder sonst wo) aus dem Regal ziehen, fündig werden zu diesem Thema. Die Bücher unterscheiden sich meist “nur” in ihrem Anspruch bzw. der didaktischen Aufmachung; für alle ist da was dabei.
Die Abweichungsquadrate wirken optisch nicht quadratisch, da die X-Achse breiter skaliert dargestellt ist als die Y-Achse. Trotzdem sind es Quadrate, nur nicht optisch, wenn Sie wissen, was ich meine…↩︎
https://docs.google.com/spreadsheets/d/1SWMj4rIIIJdAsfsSKQHSg8jHr_OuKLpJx_0XV4LGnH0/edit?usp=sharing↩︎
https://www.oecd.org/wise/measuring-well-being-and-progress.htm↩︎