2  Rahmen

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

\[ \definecolor{ycol}{RGB}{230,159,0} \definecolor{modelcol}{RGB}{86,180,233} \definecolor{errorcol}{RGB}{0,158,115} \definecolor{beta0col}{RGB}{213,94,0} \definecolor{beta1col}{RGB}{0,114,178} \definecolor{xcol}{RGB}{204,121,167} \]

2.1 Lernsteuerung

Abbildung 1.3 zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel. Abbildung 2.1 zeigt, dass unser Vorgehen in diesem Buch einem Fließband gleicht: Schritt für Schritt, in der richtigen Reihenfolge, vom Anfang bis Ende, erarbeiten wir unser “Datenprodukt”.

Abbildung 2.1: Datenanalyse als eine Abfolge am Fließband (Horst, 2024)

2.1.1 Lernziele

  • Sie können eine Definition von Statistik wiedergeben.
  • Sie können eine Definition von Daten wiedergeben.
  • Sie können den Begriff Tidy-Daten erläutern.
  • Sie können Beispiele für verschiedene Skalenniveaus nennen.

2.1.2 Einstieg

Übungsaufgabe 2.1 (Hallo, Statistik) Gehen Sie in eine kleine Gruppe zusammen (3-4 Personen). Stellen Sie sich anhand der Schlagworte einander vor:

  1. (wissenschaftliche) Interessen
  2. Erwartung an diesen Kurs
  3. Vorkenntnisse in Statistik (und in R)

Wenn Sie wollen, fügen Sie einen Fun Fact hinzu.\(\square\)

Übungsaufgabe 2.2 (Frag jetzt) Die Lehrkraft stellt Ihnen ein Forum zur Verfügung, auf dem Sie anonym Fragen an die Lehrkraft richten können (z.B. auf frag.jetzt).

Stellen Sie dort Ihre Fragen ein; voten Sie die Fragen Ihrer Kommilitonis auf oder ab. Die Lehrkraft beantwortet dann die Fragen mit den meisten Upvotes. \(\square\)

2.1.3 Erfolsgrezept

Ihren Lernerfolg kann man als von drei Faktoren abhängig betrachten: 1) Ihrer Lehrkraft, 2) Ihrer Mitarbeit im Unterricht und 3) Ihrem Eigenstudium zuhause (Vor- bzw. Nachbereitung des Unterrichts), s. Abbildung 2.2.

flowchart TD
  subgraph Lehrkraft
    F["🔥"]
  end
  subgraph A[Konzentration im Unterricht]
    C["🪵"]
  end
  subgraph E[Eigenstudium]
    D["🌳"] 
  end  

Abbildung 2.2: Ihr Lernerfolg besteht aus drei Komponenten: Der Lehrkraft, Ihrer Konzentration im Unterricht und Ihrer Vor- bzw. Nachbereitung zuhause.

Eine gute Lehrkraft ist wie der Funke, der eine (Lern-)Flamme entzündet. Aber es braucht Brennmaterial, einen Holzscheit, das ist Ihre Konzentration im Unterricht. Ein Holzscheit alleine ist aber nicht nachhaltig, es braucht viel mehr Brennmaterial, um das Feuer am Leben zu halten: Ihr Eigenstudium, das stetige, selbständige Beschäftigen mit der Materie.

2.2 Was ist Statistik und wozu ist sie gut?

In diesem Buch werden die Begriffe Statistik, Datenanalyse und Data Science synonym verwendet.

Übungsaufgabe 2.3 (Nutzen von Statistik) Fragen Sie einen Chatbot (wie ChatGPT), was der Nutzen von Statistik ist. Diskutieren Sie die Antwort. \(\square\)

Hm. Vielleicht fragen wir mal ChatGPT, was es unter Statistik versteht:

🧑‍🎓 Was ist Statistik? Bitte definiere verständlich.

🤖 Statistik ist eine Wissenschaft, die sich mit der Sammlung, Analyse, Interpretation, Präsentation und Übertragung von Daten beschäftigt. Ziel ist es, Muster und Trends in den Daten zu erkennen und verlässliche Schlussfolgerungen über eine größere Gruppe (z.B. Bevölkerung) auf der Basis einer Stichprobe (Teilmenge) zu treffen. Die Statistik hilft uns bei der Beantwortung von Fragen, indem sie uns dabei hilft, die Unsicherheit in den Daten zu messen und zu verstehen1.

Es gibt mehrere Definition von Statistik; hier ist eine, s. Definition 2.1.

Definition 2.1 (Statistik) Statistik fasst Daten zusammen, um wesentliche Informationen den Daten zu entnehmen und beschreibt die Ungewissheit unserer Schlüsse (Kaplan, 2009; Poldrack, 2023) .\(\square\)

Betrachten wir die zwei Bestimmungsstücke einer Definition von Statistik genauer:

  1. Daten zusammenfassen
  2. Ungewissheit beschreiben

2.2.1 Daten zusammenfassen

Abbildung 2.3 verdeutlicht das Prinzip des Zusammenfassens von Daten. Anschaulich gesprochen: Eine Menge von Zahlen wird zu einer einzelnen Zahl “zusammengedampft”. Eine einzelne Zahl ist wesentlich besser zu verstehen als eine große Menge von Zahlen. Bei vielen Zahlen würde man den Überblick verlieren.

(a) Zusammenfassen einer Variable zu einem Punktwert, hier zum Mittelwert

 

(b) Zusammenfassen zweier Variablen zu einer Geraden
Abbildung 2.3: Daten zusammenfassen

2.2.2 Unterschiedlichkeit messen

Eine allgegenwärtige Tatsache ist, dass die Dinge der Welt sich unterscheiden, etwa, dass Exemplare einer Gattung sich unterscheiden. So sind nicht alle Menschen gleich groß, nicht alle Bücher gleich lang oder nicht alle Tage gleich warm.

Ein zentrales Vorgehen bei statistischen Analysen ist es, die Unterschiedlichkeit der Dinge zu beschreiben, präziser gesagt: die Variation zu quantifizieren. Betrachten wir dazu das Beispiel in s. Abbildung 2.4.

Abbildung 2.4: Wenig Variation in der Körpergröße bei den Basketballern. Alles lange Kerle. Viel Variation bei den Schachspielern: Manche sind klein, ander groß.

Bei den Basketballern gibt es geringe Variation in der Körpergröße - alle sind groß, ähnlich groß. Bei den Schachspielern gibt es (im Verhältnis) hohe Variation: Einige Personen sind groß, andere klein.

Die Variation (auch “Variabilität” genannt) kann man auch gut so darstellen wie in s. Abbildung 2.5 gezeigt.

Abbildung 2.5: Die Abweichungen der einzelnen Personen von der mittleren Körpergröße ihres Teams

Eine Abweichung (auch Residuum) genannt, zeigt hier die Differenz von Mittelwert und dem Wert der Körpergröße bei der jeweiligen Person. Wenn wir allgemein von einer Person \(i\) sprechen, Das Merkmal Körpergröße mit \(X\) bezeichnen und den Mittelwert der Körpergröße als \(\bar{x}\) (“x quer”), dann können wir knapp und präzise das Residuum der \(i\)-ten Person mit \(r_i\) bezeichnen und entsprechend definieren.

Definition 2.2 (Residuum) Das Residuum des Merkmals \(X\) der \(i\)-ten Beobachtung ist definiert als die Differenz vom Wert \(x_i\) und einem Referenzwert, etwa dem Mittelwert, \(\bar{x}\):

\(r_i = x_i - \bar{x}\). \(\square\)

2.3 Was ist das Ziel Ihrer Analyse?

2.3.1 Arten von Zielen

graph TD
  subgraph Ziele
    A[beschreiben]
    B[vorhersagen]
    C[erklären]
  end
Abbildung 2.6: Zielarten einer Datenanalyse

Beispiele für die einzelnen Zielarten der Datenanalyse:

  • Beschreiben: Wie groß ist der Gender-Paygap in der Branche X im Zeitraum Y?
  • Vorhersagen: Wenn ich 100 Stunden auf die Statistikklausur lernen, welche Note kann ich dann erwarten?
  • Erklären: Wie viel bringt mir das Lernen auf die Statistikklausur?

Übungsaufgabe 2.4 Benennen Sie Beispiele für die die drei Zielarten von Datenanalysen! \(\square\)

2.3.2 Forschungsfrage

Eine Forschungsfrage ist die Leitfrage Ihrer Analyse. Sie definiert, was Sie herausfinden wollen. Häufig sind Forschungsfragen so aufgebaut:

Hat X einen Einfluss auf Y?

Eine Forschungsfrage weist häufig folgende Struktur auf, s. Abbildung 2.7.

graph LR
    I[Input bzw. X] --> X[hier passiert irgendwas]
    subgraph "Schwarze Kiste"
      X
    end
    X --> O[Output bzw. Y]
Abbildung 2.7: Struktur eine Forschungsfrage

Beispiel 2.1 (Forschungsfrage 1)  

Hat Lernen (X) einen Einfluss auf den Prüfungserfolg (Y)? Verringert Joggen (X) die Menge des Hüftgolds (Y)? Um welchen Betrag erhöht sich der Umsatz (Y), wenn wir 1000€ mehr Werbung ausgeben? (X)\(\square\)

Beispiel 2.2 (Forschungsfrage 2) Nach dem Studium haben Sie bei einem großen Online-Auktionshaus angeheuert. Da Sie angaben, sich im Studium intensiv etwas mit Statistik beschäftigt zu haben, hat man Sie in die Abteilung für Forschung und Entwicklung (F&E) gesteckt. Heute ist es Ihre Aufgabe, Auktionen zur Spielekonsole Wii zu untersuchen,2 genauer gesagt geht es um das Spiel Mariokart.3 Ihre Forschungsfrage lautet:

Welche Produktmerkmale stehen mit einem hohen Verkaufserlös in Zusammenhang?\(\square\)

Beispiel 2.3 (Handynutzung und Konzentrationsfähigkeit) Eine Forschungsfrage könnte lauten zum Thema Handynutzung:

Verringert intensive Handynutzung die Konzentrationsfähigkeit? \(\square\)

Beispiel 2.4  

2.3.3 Aus der Forschung: Smartphone-Brain-Drain 📱🧠🚫

Ward et al. (2017) untersuchten die Forschungsfrage, ob die bloße Gegenwart eines Handies (z.B. wenn es vor Ihnen auf dem Tisch liegt) dazu führt, dass man abgelenkt wird und daher schlechtere kognitive Leistungen zeigt.

Leider schreiben die Autoren Ihre Hypothese nicht glasklar, aber implizit ist obige Hypothese herauszulesen:

First, smartphones may redirect the orientation of conscious attention away from the focal task and toward thoughts or behaviors associated with one’s phone. Prior research provides ample evidence that … this digital distraction adversely affects both performance … and enjoyment.

Später formulieren Sie Ihre Hypothese noch genauer:

In two experiments, we test the hypothesis that the mere presence of one’s own smartphone reduces available cognitive capacity.

Die Ergebnisse unterstützen Ihre Hypothese, s. Abbildung 2.8. Im Diagramm ist ersichtlich, dass die kognitive Leistung (Y-Achse) sowohl in der Kapazität des Arbeitsgedächtnisses (links) als auch in der fluiden Intelligenz (rechts) am geringsten ist, wenn das Handy auf dem Schreibtisch (Desk) liegt. Am besten ist die kognitive Leistung, wenn das Handy nicht im Raum ist.\(\square\)

Abbildung 2.8: Handy in Sichtweite verringert die kognitiven Ressourcen, Ward et al. (2017)

Übungsaufgabe 2.5 Benennen Sie X und Y in Beispiel 2.4! \(\square\)

Übungsaufgabe 2.6 Fragen Sie einen Bot (z.B. ChatGPT) zum Stand der Forschung hinsichtlich der Braindrain-Forschungsfrage. Diskutieren Sie die Antwort, auch in ihren Grenzen. \(\square\)

Vorsicht

Es ist ein häufiger Fehler, in der Forschungsfrage zu formulieren “X führt zu Y”, aber in der Analyse keine Methode zu verwenden, die geeignet ist, kausale Zusammenhänge aufzudecken. Es reicht nicht, dass man z.B. einen (negativen) Zusammenhang zwischen der Häufigkeit von Smartphone-Nutzung und Konzentrationsfähigkeit findet (Schwaiger & Tahir, 2022), um zu sagen: “Daddeln macht dumm!”. Es könnte ja z.B. auch umgekehrt sein. Platt gesagt: “Dummheit führt zu Daddeln”. Weitere Erklärungen sind möglich. Vorsicht also mit (vor)schnellen Aussagen zu kausalen Abhängigkeiten.

2.3.4 Der Prozess der Datenanalyse

Datenanalyse ist eine Art des Problemlösens. Anders gesagt, man macht es nicht zum Spaß (jedenfalls nicht alle von uns), sondern um ein Ziel zu erreichen, d.h. ein Problem zu lösen. Daher analysiert man nicht gleich zu Anfang wild drauf los. Zunächst 1) klärt man das Problem und das Ziel. Dann 2) plant man das Vorgehen, z.B. welche Daten man erheben möchte. Als nächstes 3) erhebt man die Daten und bereitet sie auf. Schließlich kann man sie 4) endlich analysieren. Aber Daten sprechen nicht für sich, man muss sie 5) interpretieren und Schlüsse daraus ziehen. Dazu gehört auch, dass man die Schwächen der eigenen Analyse kritisch beleuchtet, vgl. Abbildung 2.9. Diesen Ablauf nennt man auch das PPDAC-Modell (MacKay & Oldford, 2000):

  • P: Problem (Problem und Ziel und Sachgegenstand verstehen)
  • P: Plan (Vorgehen planen)
  • D: Data (Daten erheben und aufbereiten)
  • A: Analysis (Daten analysieren)
  • C: Conclusions (Schlussfolgerungen ziehen; Daten interpretieren)
graph LR
    Problem --> Plan --> Data --> Analysis --> Conclusions --> Problem
Abbildung 2.9: Datenanalyse als Prozess: Das PPDAC-Modell

2.4 Was sind Daten?

Definition 2.3 (Hallo, Daten) Daten kann man als eine geordnete Folge von Zeichen definieren.\(\square\)

Daten kommen häufig in Tabellenform vor; so sind sie (oft) am besten zu untersuchen, s. Tabelle 2.1. Die erste Spalte id ist nur eine laufende Nummer. Sie dient dazu, die einzelnen Beobachtungen (hier Studentis) identifizieren zu können und birgt ansonsten keine Information. Beispiele für ID-Variablen sind z.B. Matrikulationsnummer, Personalausweisnummern oder Bestellnummern.

Tabelle 2.1: So sehen Daten in Form einer Tabelle aus.
id name note
1 Anna 1.3
2 Berta 2.3
3 Carla 3.0

Beispiel 2.5 (Daten zur Forschungsfrage 2) Hier ist ein Auszug der Daten zur Tabelle mariokart, s. Tabelle 2.2.

Tabelle 2.2: Auszug aus der Tabelle mariokart
duration n_bids cond start_pr ship_pr total_pr ship_sp seller_rate stock_photo wheels
3 20 new 0.99 4.0 52 standard 1580 yes 1
7 13 used 0.99 4.0 37 firstClass 365 yes 1
3 16 new 0.99 3.5 46 firstClass 998 no 1
3 18 new 0.99 0.0 44 standard 7 yes 1
1 20 new 0.01 0.0 71 media 820 yes 2
3 19 new 0.99 4.0 45 standard 270144 yes 0

Eine Erklärung (Data-Dictionary) aller Variablen des Datensatzes mariokart findet sich hier.4 \(\square\)

Definition 2.4 (Data-Dictionary) Eine Erklärung, was die Namen einer Datentabelle bedeuten, nennt man Code Book or Data-Dictionary.\(\square\)

2.4.1 Was ist eine Variable?

Definition 2.5 (Variable) Eine Variable ist ein Platzhalter, der für ein Merkmal steht, das verschiedene Werte annehmen kann.\(\square\)

Man kann sich eine Variable wie einen Behälter vorstellen, auf dem mit einem Stift geschrieben steht, was für eine Art Inhalt darin ist, s. Abbildung 2.10.

Abbildung 2.10: Wir definieren eine Variable “temp” mit dem Inhalt “9”

2.4.2 Beobachtungseinheit

Definition 2.6 (Beobachtungseinheit) Beobachtungseinheiten sind die Dinge, die wir untersuchen (beobachten). Beobachtungseinheiten sind die Träger von Variablen.\(\square\)

In Tabelle 2.1 gibt es drei Variablen: id, Name und Note. Es gibt auch drei Beobachtungseinheiten: Anna, Berta und Carla.

2.4.3 Wert

Definition 2.7 (Wert) Ein Wert ist der Inhalt einer Variablen.\(\square\)

In Abbildung 2.10 ist der Wert von temp 9. In Tabelle 2.1 hat die Variable name drei Elemente: Anna, Berta, Carla. Der Wert des 2. Elements ist Berta.

Definition 2.8 (Ausprägung) Als Ausprägungen bezeichnet man die verschiedenen Werte einer Variablen. \(\square\)

Beispiel 2.6 In einer Studie wurden zehn Probanden untersucht. Die Variable geschlecht dokumentiert die Geschlechter der Personen:

geschlecht <- c("Mann", "Frau", "Frau", "Frau", "Mann",
                "Frau", "Mann", "Mann", "divers", "Frau")
geschlecht
##  [1] "Mann"   "Frau"   "Frau"   "Frau"   "Mann"   "Frau"   "Mann"   "Mann"  
##  [9] "divers" "Frau"

In dieser Variable (die aus 10 Werten besteht) finden sich drei Ausprägungen: divers, Frau, Mann.\(\square\)

Tipp

Gerade haben Sie etwas Computer-Syntax gesehen, genauer gesagt, Befehle aus der Programmiersprache R. Bisher haben wir diese Befehle nicht kennengelernt. Sie verstehen Sie vermutlich (nicht ganz). Ignorieren Sie diese Befehle einfach erstmal.

2.4.4 Tidy Data

Definition 2.9 (Tidy Data) Unter Tidy-Data (tidy data, “Normalform”) versteht man eine Tabelle, in der jede Zeile eine Beobachtungseinheit darstellt, jede Spalte eine Variable und jede Zelle der Tabelle einen Wert, s. Abbildung 2.11 (a). (Zusätzlich ist noch eine “Kopfzeile” erlaubt, in der die Namen der Variablen stehen.)\(\square\)

Tabelle 2.1 ist ein Beispiel für Tidy-Data. Abbildung 2.11 (a) zeigt ein Sinnbild für Tidy-Data (Wickham & Grolemund, 2018). Und Abbildung 2.11 (b) erläutert das Tidy-Prinzip genauer.

(a) Tidy-Data-Sinnbild (Wickham, 2023)
(b) Was ist Tidy-Data, fragt Horst (2023)
Abbildung 2.11: Stay Tidy!
Wichtig

Für eine statistische Analyse ist es oft sinnvoll, dass die Daten im Tidy-Format vorliegen.

Der Vorteil des Tidy-Formats ist es, dass man weiß, wie die Daten aufgebaut sind. Außerdem können Statistikprogramme oft mit dieser Form am besten umgehen, s. Abbildung 2.12.

Abbildung 2.12: Immer schön Ordnung halten… (Horst, 2023)

Das Tidy-Format wird auch als “langes” Format bezeichnet.

Abbildung 2.13 zeigt einen Datensatz in der “langen” Form, also tidy, und den gleichen Datensatz, umformatiert in der “breiten” Form, nicht-tidy.

Abbildung 2.13: Eine Tabelle, einmal im Format Format “wide” (nicht “tidy”) und einmal im Format “long” (“tidy”) (Aden-Buie, 2018).

Beispiel 2.7 Ihre Firmat produziert zwei Produkte: Hämmer und Nägel. Im Folgenden sind zwei Tabellen dargestellt, die die gleichen Informationen darstellen: den Umsatz für die Jahre 2021 und 2022. Einmal ist dazu eine Nicht-Tidy-Tabelle (Tabelle 2.3) und einmal eine Tidy-Tabelle (Tabelle 2.4) verwendet. \(\square\)

Tabelle 2.3: Beispiel für eine NICHT-Tidy-Tabelle (Breitformat)
Produkt Umsatz_2021 Umsatz_2022 Umsatz_2023
Hämmer 10 11 12
Nägel 15 10 5
Tabelle 2.4: Beispiel für eine Tidy-Tabelle (Langformat)
Produkt Jahr Umsatz
Hämmer 2021 10
Hämmer 2022 11
Hämmer 2023 12
Nägel 2021 15
Nägel 2022 10
Nägel 2023 5

Übungsaufgabe 2.7 Suchen Sie ein Beispiel für eine Konfiguration einer Tabelle im Long- vs. Wide-Format. \(\square\)

🧑‍🎓 Wozu braucht man das Tidy-Format?

👩‍🏫 In vielen Software-Programmen der Datenanalyse weißt man z.B. der X- oder Y-Variable eine Spalte einer Tabelle zu. Möchte man etwa die Veränderung des Umsatzes im Verlauf der Jahre visualisieren oder analysieren, so braucht es die Spalten ‘Jahr’ und ‘Umsatz’, also ein Tidy-Format, Tabelle 2.3 bzw. Tabelle 2.4.

Abbildung 2.14 stellt auf Basis einer “Tidy-Tabelle” (Tabelle 2.4) ein Diagramm dar. Ohne Tidy-Daten wäre dieses Diagramm nicht (so einfach) zu erstellen gewesen.

Abbildung 2.14: Beispiel für eine Visualisierung auf Basis einer Tidy-Tabelle, vgl. Tabelle 2.4

2.4.5 Je mehr, desto besser (?)

Was Daten betrifft, könnte man behaupten: “Viel hilft viel” oder “Je mehr, desto besser”. Natürlich unter sonst gleichen Umständen.5 Viel Datenmüll ist natürlich nicht besser als ein paar knappe, wasserdichte Fakten!

Beispiel 2.8 Um Ihre eigene Lehraktivität zu organisieren, wollen Sie sich ein Bild machen, wie viel Ihre Nebensitzerinner und Nebensitzer im Hörsaal so lernen. Sie blicken nach links und fragen “wie viel lernst du so?”. Sie blicken nach recht und wiederholen die Frage gerichtet an den Kommilitonen, der rechts neben Ihnen sitzt. Dann addieren Sie die zwei Zahlen (unter der Annahme, dass Sie zwei Zahlen bekommen haben), und teilen durch zwei, um den Mittelwert zu erhalten.\(\square\)

Ein kritischer Geist könnte anmerken, dass Sie besser die Untersuchung nicht gemacht hätten (auch wenn Sie, vielleicht ohne zu wollen, eine statistische Untersuchung angestellt haben). Denn bei so wenig befragten Personen ist die Ungenauigkeit Ihrer Schätzung der typischen Lernzeit bei Studentis einfach zu hoch.

Abbildung 2.15 veranschaulicht, dass man einen Mittelwert genauer schätzen kann, wenn man auf eine größere Stichprobe zurückgreift. Das Teilbild links zeigt den Mittelwert einer Stichprobe mit \(n=20\) Beobachtungen. Das Teilbild rechts zeigt den Mittelwert einer Stichprobe mit \(n=200\) Beobachtungen (jeweils aus der gleichen Grundgesamtheit). Wie man sieht, ist im linken Teilbild die Streuung (Variation) höher als im rechten Teilbild:

Abbildung 2.15: Schätzgenauigkeit als Funktion der Stichprobengröße: Die vertikale Linie zeigt den wahren Mittelwert. Kleinere Stichproben-Mittelwerte schanken (variieren) mehr um den Mittelwert herum als größere Stichproben.

Bildquelle: Karsten Lübke

Wichtig

Mehr Daten = genauere Ergebnisse (unter sonst gleichen Umständen) \(\square\)

Übungsaufgabe 2.8 (Live-Experiment zum Effekt der Stichprobengröße) In diesem Live-Experiment untersuchen wir den Effekt der Stichprobengröße auf die Streuung des Mittelwerts in der Stichprobe. Streuen die Ergebnisse mehr in kleinen Stichproben als in großen? Probieren wir es aus!

In diesem Experiment werfen Sie (in kleinen Gruppen) eine Münze (auf faire Art und Weise) und notieren das Ergebnis (Kopf oder Zahl). Uns interessiert dabei die Frage, ob die Ergebnisse bei kleinen Stichproben (n=5 Münzwürfe) anders streuen als in großen Stichproben (n=20 Münzwürfe).

Sie brauchen nur experimentierfreudige Partner (Kleingruppen mit 2-4 Personen), eine faire Münze und dann kann’s los gehen! Klicken Sie hier, um mit dem Experiment zu starten.

Die Daten aller Versuche können Sie hier einsehen.6 \(\square\)

Beispiel 2.9 (Dorfschulen machen die schlauesten Schüler!) In einer Pressemitteilung sei zu lesen, dass die besten Schüler in den Dorfschulen zu finden seien (Das ist eine fiktive Geschichte). Mit etwas Recherche finden Sie heraus, dass diese Aussage für belastbaren Daten beruht: Tatsächlich sind die Notendurchschnitte auf den kleinen Dorfschulen deutlich besser als in den großen Schulen in der Stadt. Also stimmt die Behauptung der Pressemitteilung? Die gute Landluft lässt das Hirn wachsen? Sie recherchieren noch etwas weiter in den Daten. Dann fällt Ihnen auf: Die schlechtesten Schüler kommen auch aus den Dorfschulen! Eine statistische Erklärung bietet sich an: In den Dorfschulen gibt es nur wenig Kinder und kleine Klassen – die Stichproben sind also klein. Bei kleinen Stichproben gibt es viel Variation um den Mittelwert herum, s. Abbildung 2.15, und zwar nach oben (guter Notenschnitt) und nach unten (schlechter Notenschnitt). \(\square\)

2.5 Arten von Variablen

2.5.1 Nach Position in der Forschungsfrage

Angenommen, Ihre Forschungsfrage lautet:

Hat Lernen einen Einfluss auf den Prüfungserfolg?

In dem Fall gilt:

  • Lernen ist die Inputvariable/X-Variable/Ursache/unabhängig Variable (UV)
  • Prüfungserfolg ist die Outputvariable/Y-Variable/Wirkung/abhängige Variable (AV)

Abbildung 2.16 stellt diese beiden “Positionen” einer Variable dar. Die erste Position ist vor dem Pfeil. Die zweite Position ist nach dem Pfeil.

graph LR
    Input --> Output
    X --> Y
    P[Prädiktor] --> K[Kriterium]
    Ursache --> Wirkung
    UV[unabhängige Variable] --> AV[abhängige Variable]
Abbildung 2.16: Synonyme Bezeichnungen für Input- und Output-Variablen einer Forschungsfrage

Übungsaufgabe 2.9 Überlegen Sie sich eine Forschungsfrage, die eine UV und eine AV enthält. Nennen Sie einer anderen Person diese Forschungsfrage und fragen Sie, was die UV und die AV ist. Bei richtiger Antwort belohnen Sie großzügig. \(\square\)

2.5.2 Nach dem Skalenniveau

Definition 2.10 (Skalenniveau) Der Begriff Skalenniveau wird verwendet, um die Art und Menge der Information, die in Variablen enthalten ist, zu benennen. Diese Klassifikation basiert auf den Eigenschaften der Daten und den mathematischen Operationen, die sinnvoll auf diese Daten angewendet werden können. \(\square\)

Abbildung 2.17 gibt einen Überblick über typisch verwendete Skalenniveaus.

graph TD
    Variablen --> qualitativ
    Variablen --> quantitativ
    qualitativ --> nominal
    qualitativ --> ordinal
    quantitativ --> Intervallniveau
    quantitativ --> Verhältnisniveau
Abbildung 2.17: Skalenniveaus

2.5.3 Beispiele für Skalenniveaus

Beispiele zu den Skalenniveaus sind in Tabelle 2.5 aufgeführt. \(\square\)

Tabelle 2.5: Beispiele für Skalenniveaus
Variable Skalenniveau
Haarfarbe Nominalskala
Augenfarbe Nominalskala
Geschlecht Nominalskala
Automarke Nominalskala
Partei Nominalskala
Lieblingsessen Ordinalskala
Medaillen beim 100-Meter-Lauf Ordinalskala
Uniranking Ordinalskala
IQ Intervallskala
Extraversion Intervallskala
Temperatur in Celcius Intervallskala
Temperatur in Fahrenheit Intervallskala
Temperatur in Kelvin Verhältnisskala
Körpergröße Verhältnisskala
Geschwindigkeit Verhältnisskala
Länge Verhältnisskala

Jenachdem über welches Skalenniveau eine Variable verfügt, sind verschiedenen Rechenoperationen erlaubt, s. Tabelle 2.6 .

Tabelle 2.6: Erlaubte Rechenoperationen nach Skalenniveau
Skalenniveau Quantitativ + ×
Nominalniveau nein
Ordinalniveau nein
Intervallniveau ja
Verhältnisniveau ja

Was soll das bedeuten, “Rechenoperationen”? Schauen wir uns für jedes Skalenniveau ein “Rechenbeispiel” an.

Nominalskala: Die Variable Geschlecht ist nominalskaliert. Das bedeutet, dass ihre Ausprägungen Frau und Mann z.B. nicht (sinnvoll) addiert oder sonstwie “verrechnet” werden können. Man könnte, z.B. um das Eintippen zu erleichtern, Frauen mit 1 kodieren und Männer mit 2. Damit darf man aber nicht rechnen! Nicht addieren, multiplizieren … Es macht keinen Sinn zu sagen: “Ich habe eine Frau und einen Mann in meiner Tabelle, das ist im Schnitt ein diverses Geschlecht, weil der Mittelwert von 1 und 2 ist 1,5!” Die einzige “Rechenoperation”, die man auf der Nominalskala machen darf, ist die Prüfung auf Gleichheit: Mann kann feststellen, ob ein Objekt gleich zu einem anderen ist oder unterschiedlich. Also ob zwei Personen das gleiche Geschlecht haben oder von unterschiedlichem Geschlecht sind. Anders ausgedrückt:

  • 👩 \(\ne\) 👨
  • 👩 \(=\) 👩
  • 👨 \(=\) 👨

Ordinalskala: Diese Skala entspricht einer Rangordnung. Eine Rangordnung ist etwa die geordnete Abfolge Ihres Leibgerichte (1. Pizza, 2. Spagetthi, 3. Schnitzel). Etwas “formaler” ausgedrückt:

  • 🍕 \(\succ\) 🍝 \(\succ\) 🥩

Das komische Zeichen \(\succ\) soll heißen: “Ist auf meiner Liste von Leibgerichten weiter oben, mag ich lieber”. Man kann aber nicht sagen, “Ich mag aber Pizza um 42% mehr als die Spagetthi und die wieder um 73% mehr als ein Schnitzel!”. Zumindest kann man das nicht ohne weitere Informationen und Annahmen. Es gibt also Dinge auf der Welt, die man leicht in eine Rangordnung bringen kann, aber die man nur schwer in der Größe der Unterschiede bemessen kann. Das ist die Ordinalskala.

Wichtig

Die Ordinalskale erlaubt, Objekte zu ordnen (hinsichtlich eines Merkmals). Die Abstände zwischen den Objekten können nicht quantifiziert werden. \(\square\)

Intervallskala: Das ist vielleicht eine Überraschung für Sie: Wenn es heute 10°C hat und morgen 5°C – dann ist es heute nicht doppelt so warm wie morgen. Ja, 10 ist das Doppelte von 5. Aber 10° Celcius ist nicht doppelt so warm wie 20° Celcius. Wenn Sie das verwundert: Das ist normal, so geht es vielen Leuten, wenn sie das zum ersten Mal hören. Der Grund, dass es nicht erlaubt ist, Verhältnisse (wie doppelt/halb so viel etc.) auf der Celcius-Skala zu bilden, ist, dass der Nullpunkt der Skala, 0° C, kein echter, physikalischer Nullpunkt ist. Bei 0° C liegt eben nicht Null Wärmeenergie vor. Stattdessen wurde eine Wärmenergiemenge gewählt, die für uns Menschen ganz praktisch, da augenfällig ist: der Gefrierpunkt von Wasser. Was bei der Intervallskala erlaubt ist, ist das Addieren (und Subtrahieren): heute 10°C, morgen 5°C, das ist ein Unterschied von 5°C. Oder: Im Schnitt waren es 7,5°C, das ist genau in der Mitte von 5 und 10°C. Abbildung 2.18 versinnbildlicht die Intervallskala.

Abbildung 2.18: Ein Metermaß steckt im trüben Wasser. Auf dem Metermaß können wir die aufgedruckten Zahlen ablesen. Aber wir wissen nicht, ob der Metermaß auf dem Boden steht. Wir wissen demnach nicht, ob der vom Metermaß angegebene Nullpunkt der wahre Nullpunkt (Meeresboden) ist.

Verhältnisskala: Eine Verhältnisskala ist das, was man sich gemeinhin unter einer metrische Variable vorstellt: Man kann “normal” rechnen, alle Rechenoperationen sind erlaubt. Zuzüglich zu denen, die auch in anderen, “niedrigeren” Skalenniveaus erlaubt sind, ist das das Bilden von Verhältnissen – Multiplizieren, s. Abbildung 2.19.

Abbildung 2.19: Puh! Der rote Flitzer ist 10 Mal so teuer wie die blaue Möhre. Kohlen zusammenkratzen.

In diesem Video gibt es noch ausführlichere Erklärung zum Thema Skalenniveaus.

Außerdem können quantitative Variablen untergliedert werden in:

  • stetige Variablen, das sind Variablen, bei denen man zwischen zwei Ausprägungen immer noch eine weitere quetschen kann. So gibt es einen Wert für die Köpergröße zwischen 1.60 m und 1.61 m. Und einen Wert zwischen 1.601 m und 1.602 m, etc.
  • diskrete Variablen, das sind metrische Variablen, die nur bestimmte Ausprägungen haben, häufig sind das die natürlichen Zahlen: \(1,2,...\). Ein Beispiel wäre die Anzahl der Kinder in einer Familie.
Tipp

Fragen nach Skalenniveaus gehören zu den Lieblingsprüfungsfragen in diesem Themenbereich. Sie sind gut beraten, sich gerade mit dieser Frage intensiver zu beschäftigen. Auch in thematisch angrenzenden Fächern wird immer wieder die Frage nach dem Skalennvieau aufgeworfen. Das zeigt natürlich auch die hohe Relevanz des Themas.

Übungsaufgabe 2.10 Überlegen Sie sich für einige Variablen die Skalenniveaus und befragen Sie dann eine:n Kommilitonen dazu. \(\square\)

2.6 Modelle

Woran denken Sie beim Wort “Modell”? Vielleicht an Spielzeugautos, s. Abbildung 2.20.

Abbildung 2.20: Matchbox-Autos sind Modelle für Autos

Definition 2.11 (Modelle) Modelle sind ein vereinfachtes Abbild der Realität, eine Repräsentation (Kaplan, 2009).\(\square\)

Beispiel 2.10 (Beispiele für Modelle) Puppen sind Modelle für Babies, Landkarten für Landstriche und das Atommodell von Nils Bohr ist ein Modell für Atome.7\(\square\)

Auch in der Statistik nutzen wir Modelle. Helfen Sie Prof. Weiss-Ois: Er blickt nicht durch. Gerne würde er wissen, wie viele Stunden seine Studentis auf die Prüfung lernen. Aber mit so vielen Zahlen kann er nicht umgehen … Geben Sie ihm ein Modell: Sagen Sie ihm, wie lang die Studis typischerweise lernen (sagen Sie ihm ein einfach den Mittelwert der Lernzeiten, 9.6 Stunden).

Vorher: 12, 8, 10, 11, 10, 9, 13, 9, 14, 9, 12, 14, 7, 9, 9, 11, 9, 4, 5, 12, 9, 6, 9, 12, 13, 9, 9, 6, 10… Oh je, so viele Zahlen! Ich check nix! Wie viel lernen denn jetzt meine Studis?! (flaticon, 2024)

 

Nachher: Ah, 9.6 Stunden! Yeah, jetzt weiß ich, wie viel die Studis so typischerweise lernen. Viel zu wenig natürlich! (flaticon, 2024)
Abbildung 2.21: Prof. I. Ch. Weiss-Ois hat den Mittelwert verstanden.

Der Nutzen von Modellen ist, dass sie komplexe Sachverhalte vereinfachen und damit oft überhaupt erst dem Verständnis oder einer Untersuchung zugänglich machen: Modelle ermöglichen Verständnis. In der Datenanalyse bzw. Statistik (die beiden Begriffe werden hier weitgehend synonym gebraucht) fassen sie oft viele Daten prägnant zusammen, z.B. zu einer einzelnen Kennzahl. Das Verrückte an Modellen ist, dass man Informationen wegwirft, um eine (andere, hoffentlich nützlichere) Information zu bekommen (Stigler, 2016). Weniger ist mehr?!

2.7 Praxisbezug

Wir leben im Datenzeitalter; Daten durchdringen alle Bereiche des beruflichen, gesellschaftlichen und privaten Lebens. Die Datenanalyse hat sich in den letzten Jahren massiv verändert, da Datenmengen und Methoden einen regelrechten Boom erlebt haben.

Diese Entwicklung ist durchaus auch kritisch zu betrachten; viele Menschen betrachten die Entwicklung im Datenzeitalter – Stichwort künstliche Intelligenz – mit Sorge. Egal ob man Daten als Segen oder Fluch betrachtet, in beiden Fällen ist es wichtig, mit Daten umgehen zu können. Mit der wachsenden Bedeutung von Daten wächst in gleichem Maße die Bedeutung von Datenanalyse. Denn Daten ohne Sinn sind nutzlos. Aus diesem Grund kann man sagen, dass Datenanalyse (und damit auch Statistik als eine spezielle Art von Datenanalyse) zu stark nachgefragten Jobs gehören.

Laut dem Entgeltatlas der Bundesagentur für Arbeit liegt ein typisches Gehalt von Data Scientisten bei knapp 6000 € pro Monat (in der Altersgruppe von 25 bis 54)8. Laut dem Gehaltsreporter liegt das Einstiegsgehalt dieser Berufsgruppe bei knapp 50.000€ pro Jahr.9

2.8 Wie man mit Statistik lügt

Das File-Drawer-Problem: Sie haben ein tolles Experiment durchgeführt, viel Arbeit, viel Stress, endlich geschafft, puh. Von den 20 Variablen (als AV, s. Kapitel 2.5), die Sie untersucht haben, zeigt nur 1 einen interessanten Effekt, leider. 1 von 20, das hört sich nicht so toll an. Wäre es da nicht “elegant”, die 19 Variablen ohne schönen Effekt einfach in der Schublade liegen zu lassen bis zum Sankt-Nimmerleins-Tag? Dann könnten Sie stattdessen als Ergebnis nur die eine Variable mit schönen Ergebnis präsentieren, ganz ohne widersprechende Befunde.

Dieser Versuchung nicht zu erliegen, kann schwer sein. Es ist aber gefährlich, missliebige Ergebnisse zu verschweigen: Die anderen Menschen bekommen dann ein falsches Bild der Ergebnislage; man spricht von Publikationsbias (Marks‐Anglin & Chen, 2020). Wer Ergebnisse verschweig, verzerrt die insgesamte Befundlage (Rothstein, 2014) – klarer Fall von wissenschaftlichem Fehlverhalten.

2.9 Fazit

Die Aufgabe von Statistik ist es, durch Zusammenfassen von Daten Modelle zu bilden, die es uns einfacher machen, schwierige Sachverhalte zu verstehen. Zentral ist dabei, die Analyse von Variabilität der Daten. Daten kommen in verschiedenen Varianten vor, typischerweise in Tabellenform, möglichst im Tidy-Format.

2.10 Aufgaben

Die Webseite datenwerk.netlify.app stellt eine Reihe von einschlägigen Übungsaufgaben bereit. Sie können die Suchfunktion der Webseite nutzen, um die Aufgaben mit den folgenden Namen zu suchen:

  1. variation01
  2. Def-Statistik01
  3. tidy1
  4. Skalenniveau1a
  5. Ziele-Statistik
  6. variation02
  7. Skalenniveau1b
  8. tidydata1

2.11 Vertiefung

2.11.1 Excel für Könner

In vielen Organisationen werden Exceltabellen für bestimmte Zwecke der Datenverarbeitung verwendet. Excel (und ähnliche Programme) hat bestimmte Stärken und Vorteile, aber auch gewisse Nachteile und Schwäche; das liegt z.T. daran, dass Excel für bestimmte Aufgaben besser und für andere weniger gut geeignet ist. Wenn man mit Excel arbeitet, wiederholen sich erfahrungsgemäß immer wieder die gleichen Fehler bzw. suboptimalen Vorgehensweise zum Aufbau einer Exceltabelle.

Dieser Artikel von Broman & Woo (2018) zeigt anhand einiger praktischer Tipps, wie man Exceltabellen so aufbaut, dass Fehler minimiert werden.

Übungsaufgabe 2.11 (Fassen Sie den Artikel von Broman & Woo (2018) zusammen) Die Lehrkraft teilt Sie dazu in Gruppen ein und weist jeder Gruppe einen Abschnitt des Artikels zu. Fassen Sie das Wesentliche (und nur das Wesentliche) an einem geeigneten Ort zusammen (z.B. auf einem Miro-Board). \(\square\)

2.11.2 Sind wir süchtig nach dem Handy?

Sind Sie süchtig nach Ihrem Handy? Lassen Sie uns eine kleine Studie dazu (ggf. live im Hörsaal) durchführen. Füllen Sie diese Umfrage zum Thema Smartphonse-Sucht aus (anonym und kein Muss).

Kernstück der Umfrage ist die Smartphone-Sucht-Skala (Kwon et al., 2013). Eine Studie fand, dass ca. ein Siebtel der Studierenden süchtig nach ihrem Smartphone sind (Haug et al., 2015); demnach könnte dem Thema eine hohe Bedeutsamkeit zukommen. Wir werden die Daten im weiteren Verlauf auswerten.

2.11.3 Datenprofi plaudert aus dem Nähkästchen

Inspiration von einer Praktikerin der Datenanalyse: Caitlin Hudon verrät in diesem Video, welche Fehler Sie sie in in den acht Jahren ihrer Berufserfahrung gemacht hat und was sie daraus gelernt hat.10

2.12 Literaturhinweise

Einen Einblick in die Fundamente statistischer Analyse bietet Stigler (2016). Cetinkaya-Rundel & Hardin (2021), stellen grundlegende Konzepte der Analyse von Daten im Kapitel 1, “Hello data”, vor. Downey (2023) illustriert statistische Überraschungsmoment auf unterhaltsame, und vor allem: sofataugliche Art.


  1. Release 2023-Jan↩︎

  2. https://www.nintendo.de/Wii/Wii-94559.html↩︎

  3. yhttps://www.nintendo.de/Spiele/Wii/Mario-Kart-Wii-281848.html#_bersicht↩︎

  4. https://www.openintro.org/data/index.php?data=mariokart↩︎

  5. Ceteris paribus, auf Latein, hört sich gleich viel schlauer an.↩︎

  6. https://tinyurl.com/3w8ke2n2↩︎

  7. https://de.wikipedia.org/wiki/Bohrsches_Atommodell↩︎

  8. Abrufdatum: 1.2.23; https://web.arbeitsagentur.de/entgeltatlas/beruf/129987↩︎

  9. https://gehaltsreporter.de/gehaelter-von-a-bis-z/it/data-scientist/↩︎

  10. https://youtu.be/O5lP6XcopdQ?si=7UsS6xbeYjnorGhx↩︎