1 Organisatorisches
Statistik, Prognose, Modellierung, R, Datenanalyse, Regression
This book is written in German. However, your browser will easily translate the text to your favorite language. Please check your browser’s documentation for details. It should be done with one or two clicks. \(\square\)
1.1 Es geht um Ihren Lernerfolg
Meister Yoda rät: Lesen Sie die folgenden Hinweise, s. Abbildung 1.1.
1.1.1 Lernziele
Die Studentis sind mit wesentlichen Methoden der explorativen Datenanalyse vertraut und können diese selbständig anwenden.
Die Studentis können gängige Forschungsfragen in lineare Modelle übersetzen, diese auf echte Datensätze anwenden und die Ergebnisse interpretieren.
1.1.2 Was lerne ich hier und wozu ist das gut?
Was lerne ich hier?
Sie lernen das Handwerk der Datenanalyse mit einem Schwerpunkt auf Vorhersage. Anders gesagt: Sie lernen, Daten aufzubereiten und aus Daten Vorhersagen abzuleiten. Zum Beispiel: Kommt ein Student zu Ihnen und sagt “Ich habe 42 Stunden für die Klausur gelernt, welche Note kann ich in der Klausur erwarten?”. Darauf Ihre Antwort: “Auf Basis meiner Daten und meines Modells müsstest du eine 2.7 schreiben!”1. Außerdem lernen Sie, wie man die Güte einer Vorhersage auf Stichhaltigkeit prüft. Denn Vorhersagen kann man ja in jeder Eckkneipe oder beim Wahrsager bekommen. Wir wollen aber belastbare Vorhersagen und zumindest wissen, wie gut die Vorhersagen (von jemanden) bisher waren.
Warum ist das wichtig?
Wir wollen nicht auf Leuten vertrauen, die behaupten, sie wüssten, was für uns richtig und gut ist. Wir wollen selber die Fakten prüfen können.
Wozu brauche ich das im Job?
Datenanalyse spielt bereits heute in vielen Berufen eine Rolle. Tendenz stark zunehmend.
Wozu brauche ich das im weiterem Studium?
In Forschungsarbeiten (wie in empirischen Forschungsprojekten, etwa in der Abschlussarbeit) ist es üblich, statistische Ergebnisse hinsichtlich quantitativ zu analysieren.
Ist Statistik nicht sehr abstrakt?
Der Schwerpunkt dieses Kurses liegt auf Anwenden und Tun; ähnlich dem Erlernen eines Handwerks. Theorien und Abstraktionen stehen nur am Rand.
Gibt es auch gute Jobs, wenn man sich mit Daten auskennt?
Das Forum (2020) berichtet zu den “Top 20 job roles in increasing and decreasing demand across industries” (S. 30, Abb. 22):
- Data Analysts und Scientists
- AI and Machine Learning Specialists
- Big Data Specialists
1.1.3 Was ist hier das Erfolgsgeheimnis?
Das Lesen einer Schwimmfibel ist nur bedingt nützlich, wenn Sie Freischwimmer werden wollen. Es hilft nichts: Rein in die Fluten! Wenn das Wasser nicht tief ist, man jederzeit Pause machen kann und die Erfolge sich schnell einstellen, steht Ihrem Fortschritt beim Lernen nichts im Weg. Ich gebe zu, der Vergleich ist nicht gerade subtil. Aber es ist so: Sie lernen durch Tun (Lovett & Greenhouse, 2000). Dieses Buch bietet dafür reichhaltige Gelegenheit. Nutzen Sie sie. Jedes Kapitel führt am Ende eine Reihe von Aufgaben auf, alle mit Lösungen. So können Sie Ihren Lernfortschritt testen. Das Schwierigkeiten auftreten, wenn man etwas Neues lernt, ist normal. Das geht fast allen so. Ihren Lernerfolg kann nur eine Sache gefährden: Wenn Sie aufgaben. Bleiben Sie dran, und der Erfolg wird sich einstellen! Abbildung 1.2 zeigt Daten von N=1646 Studentis, die zeigen, dass regelmäßiges Üben und Dranbleiben der Schlüssel zum Erfolg ist.
Dran bleiben ist der Schlüssel zum Erfolg. Üben Sie regelmäßig. Geben Sie bei Schwierigkeiten nicht auf. 🏋️♂️🔁🔑✨ \(\square\)
1.1.4 Motivieren Sie mich!
Schauen Sie sich das Video mit einer Ansprache zur Motivation an.
1.1.5 Voraussetzungen
Um von diesem Kurs am besten zu profitieren, sollten Sie Folgendes mitbringen:
- Bereitschaft, Neues zu lernen
- Bereitschaft, nicht gleich aufzugeben
- Kenntnis grundlegender Methoden wissenschaftlichen Arbeitens
Was Sie nicht brauchen, sind besondere Mathe- oder Statistik-Vorkenntnisse.
1.1.6 Überblick über das Buch
Abb. Abbildung 1.3 gibt einen Überblick über den Verlauf und die Inhalte des Buches. Das Diagramm hilft Ihnen zu verorten, wo welches Thema im Gesamtzusammenhang steht.
Das Diagramm zeigt auch den Ablauf einer typischen Datenanalyse. Natürlich kann man sich auch andere sinnvolle Darstellungen dieses Ablaufs vorstellen.
1.1.7 PDF-Version
Sie können die Druck-Funktion Ihres Broswers nutzen, um ein PDF-Dokument eines Kapitels dieses Buchs zu erstellen.
1.2 Lernhilfen
1.2.1 Aufgaben im Datenwerk
Auf der Webseite “Datenwerk” wird eine große Zahl an Aufgaben bereitgestellt. Am Ende jedes Kapitels finden Sie eine Auswahl an Aufgabennamen, die Sie im Datenwerk lösen können.
Außerdem tauchen in jedem Kapitel Übungsaufgaben an verschiedenen Stellen auf, so dass Sie den jeweiligen Stoff sofort üben und Ihr Verständnis prüfen können.
1.2.2 Videos
Schauen Sie sich mal den YouTube-Kanal @sebastiansauerstatistics
an und dort die Playlist “R”. Dort finden Sie einige Videos zum Thema R.
1.2.3 Hervorhebungen
Im Buch sind Beispiele, Fehlerquellen, Definitionen und Hinweise visuell hervorgehoben (und verlinkt), so dass Sie schnell finden können.
1.3 Software: R
Sie benötigen R, RStudio und einige R-Pakete für diesen Kurs. Hier finden Sie Installationshinweise.2
Dieses Buch enthält “mittel” viel R. Auf fortgeschrittene R-Techniken wurde aber komplett verzichtet. Dem einen Anfänger oder der anderen Anfängerin mag es dennoch “viel Code” erscheinen. Es wäre ja auch möglich gewesen, auf R zu verzichten und stattdessen eine “Klick-Software” zu verwenden. JASP oder Jamovi sind Beispiele für tolle Software aus dieser Kategorie. Ich glaube aber, der Verzicht auf eine Skriptsprache (R) wäre ein schlechter Dienst an den Studentis. Mit Blick auf eine “High-Tech-Zukunft” sollte man zumindest mit etwas Computer-Code vertraut sein. Auf Computercode zu verzichten erschiene mir daher fahrlässig für die “Zukunftsfestigkeit” der Ausbildung.
Sie finden den R-Code für jedes Kapitel auf Github.3
1.4 Hinweise
Der Unterricht zu diesem Modul wird id.R. nur ein Mal pro Jahr angeboten (also nur jedes zweite Semester).
Eine Prüfung in diesem Modul ist jedes Semester möglich.
1.5 Prüfung
Die folgenden Hinweise sind dem Hinweisbuch des Autors entnommen. Lesen Sie auch die übrigen Hinweise dort.4
1.5.1 Prüfungleistung
Die Prüfungsleistung besteht aus einer Hauptleistung (keine Bonusleistung).
Die Hauptleistung besteht aus einer Projektarbeit im Form eines Prognosewettbewerbs.
1.5.2 Zum Prognosewettbewerb
Im Hinweisbuch finden Sie Hinweise zur Prüfung.5
1.5.3 Prüfungsrelevanter Stoff
Beachten Sie die Hinweise zum prüfungsrelevanten Stoff.6
1.5.4 Wie kann ich mich auf die Prüfung vorbereiten?
1.5.5 Allgemeine Prüfungshinweise
Die folgenden Hinweise gelten grundsätzlich, d.h. soweit nicht anders in der jeweiligen Prüfung bzw. der jeweiligen Aufgabe angegeben. Nichtbeachten von Prüfungshinweisen kann zu Punkteabzug oder Nichtbestehen führen. Lesen Sie sich diese Hinweise im eigenen Interesse sorgfältig durch. Kenntnis dieser Hinweise wird bei der Begutachtung vorausgesetzt.
Für eine einfachere Kommunikation kontaktieren Sie mich per E-Mail bei Fragen, die nur Sie betreffen. Bei Fragen von allgemeinem Interesse (z.B. “Bis wann müssen wir die Arbeit abgeben?”) nutzen Sie bitte (sofern verfügbar) das Kursforum, damit die Kommilitonen auch von dem Austausch profitieren.
Beachten Sie die allgemeinen Prüfungshinweise.8
1.5.6 Lieblingsfehler
Vermeiden Sie diese häufigen Fehler im Prognosewettbewerb.9
1.5.7 Fazit
🍀🍀🍀VIEL ERFOLG!🍀🍀🍀
1.6 Zum Autor
Nähere Hinweise zum Autor dieses Buch, Sebastian Sauer, finden Sie hier.10 Dort gibt es auch einen Überblick über weitere Bücher des Autors zum Themenkreis Datenanalyse.11
1.7 Farben
In Gleichungen werden zum Teil Farben verwendet, diese haben folgende Bedeutung:
- Y bzw. Abhängige Variable
- X bzw. Unabhängige Variable
- e bzw. Fehlerterm
- b0 bzw. Achsenabschnitt
- b1 bzw. Steigung (Regressionsgewicht)
- m bzw. y-Dach bzw. Modellwert
In Diagrammen werden auch Farben verwendet, die haben allerdings keine feste Bedeutung, sondern dienen der Übersichtlichkeit.
1.8 Griechische Buchstaben
In diesem Buch werden ein paar (wenige) griechische Buchstaben verwendet, die in der Statistik üblich sind. Häufig werden griechische Buchstaben verwendet, um eine Grundgesamtheit (Population) zu beschreiben (die meistens unbekannt ist). Lateinische (“normale”) Buchstaben werden demgegenüber verwendet, um eine Stichprobe (Datensatz, vorliegende Daten) zu beschreiben. Tabelle 1.1 stellt diese Buchstaben zusammen mit ihrer Aussprache und Bedeutung vor.
Zeichen | Aussprache | Buchstabe | Bedeutung in der Statistik |
---|---|---|---|
\(\beta\) | beta | b | Regressionskoeffizent |
\(\mu\) | mü | m | Mittelwert |
\(\sigma\) | sigma | s | Streuung |
\(\Sigma\) | Sigma | S | Summenzeichen |
\(\rho\) | rho | r | Korrelation (nach Pearson) |
Mehr griechische Buchstaben finden sich z.B. in Wikipedia.12
1.9 Zitation
Bitte zitieren Sie dieses Buch wie folgt:
Sauer, S. (2024). Statistik1. https://statistik1.netlify.app/
Hier sind die maschinenlesbaren Zitationsinfos (Bibtex-Format), die Sie in Ihre Literatursoftware importieren können:
@book{sauer_statistik1,
title = {Statistik1},
rights = {CC-BY-NC},
url = {https://statistik1.netlify.app/},
author = {Sauer, Sebastian},
date = {2024},
}
Hier ist die DOI:
1.10 Reproduzierbarkeit
Die verwendeten R-Pakete sind mit renv dokumentiert.13 Der Quellcode ist in diesem Github-Repo dokumentiert.14
Darauf die Studentin: “Hpmf.”↩︎
https://github.com/sebastiansauer/statistik1/tree/main/R-code-for-all-chapters↩︎
https://hinweisbuch.netlify.app/080-hinweise-pruefung-prognosewettbewerb-frame↩︎
https://hinweisbuch.netlify.app/010-hinweise-pruefung-allgemein-frame#pr%C3%BCfungsrelevanter-stoff↩︎
https://hinweisbuch.netlify.app/150-hinweise-pruefungsvorbereitung-frame↩︎
https://hinweisbuch.netlify.app/010-hinweise-pruefung-allgemein-frame↩︎
https://hinweisbuch.netlify.app/170-beispiele-fehler-prognosewettbewerb-frame↩︎