Statistik1
1 Willkommen!
1.1 Es geht um Ihren Lernerfolg
Meister Yoda rät: Lesen Sie die Hinweise (Abbildung 1.1).
Quelle: Imgflip Memengenerator
1.1.1 Lernziele
Die Studentis sind mit wesentlichen Methoden der explorativen Datenanalyse vertraut und können diese selbständig anwenden.
Die Studentis können gängige Forschungsfragen in lineare Modelle übersetzen, diese auf echte Datensätze anwenden und die Ergebnisse interpretieren.
Kurz gesagt: Das ist ein Grundkurs in Daten zähmen.
1.1.2 Was lerne ich hier und wozu ist das gut?
Was lerne ich hier?
Sie lernen das Handwerk der Datenanalyse mit einem Schwerpunkt auf Vorhersage. Anders gesagt: Sie lernen, Daten aufzubereiten und aus Daten Vorhersagen abzuleiten. Zum Beispiel: Kommt ein Student zu Ihnen und sagt “Ich habe 42 Stunden für die Klausur gelernt, welche Note kann ich in der Klausur erwarten?”. Darauf Ihre Antwort: “Auf Basis meiner Daten und meines Modells müsstest du eine 2.7 schreiben!”.1. Außerdem lernen Sie, wie man die Güte einer Vorhersage auf Stichhaltigkeit prüft. Denn Vorhersagen kann man ja in jeder Eckkneipe oder beim Wahrsager bekommen. Wir wollen aber belastbare Vorhersagen und zumindest wissen, wie gut die Vorhersagen (von jemanden) bisher waren.
Warum ist das wichtig?
Wir wollen nicht auf Leuten vertrauen, die behaupten, sie wüssten, was für uns richtig und gut ist. Wir wollen selber die Fakten prüfen können.
Wozu brauche ich das im Job?
Datenanalyse spielt bereits heute in vielen Berufen eine Rolle. Tendenz stark zunehmend.
Wozu brauche ich das im weiterem Studium?
In Forschungsarbeiten (wie in empirischen Forschungsprojekten, etwa in der Abschlussarbeit) ist es üblich, statistische Ergebnisse hinsichtlich quantitativ zu analysieren.
Ist Statistik nicht sehr abstrakt?
Der Schwerpunkt dieses Kurses liegt auf Anwenden und Tun; ähnlich dem Erlernen eines Handwerks. Theorien und Abstraktionen stehen nur am Rand.
Gibt es auch gute Jobs, wenn man sich mit Daten auskennt?
Das Forum (2020) berichtet zu den “Top 20 job roles in increasing and decreasing demand across industries” (S. 30, Abb. 22):
- Data Analysts und Scientists
- AI and Machine Learning Specialists
- Big Data Specialists
1.1.3 Was ist hier das Erfolgsgeheimnis?
Dran bleiben ist der Schlüssel zum Erfolg. \(\square\)
1.1.4 Motivieren Sie mich!
Schauen Sie sich das Video mit einer Ansprache zur Motivation an.2
1.1.5 Voraussetzungen
Um von diesem Kurs am besten zu profitieren, sollten Sie Folgendes mitbringen:
- Bereitschaft, Neues zu lernen
- Bereitschaft, nicht gleich aufzugeben
- Kenntnis grundlegender Methoden wissenschaftlichen Arbeitens
Was Sie nicht brauchen, sind besondere Mathe-Vorkenntnisse.
1.1.6 Überblick
Abb. Abbildung 1.2 gibt einen Überblick über den Verlauf und die Inhalte des Buches. Das Diagramm hilft Ihnen zu verorten, wo welches Thema im Gesamtzusammenhang steht.
Das Diagramm zeigt den Ablauf einer typischen Datenanalyse. Natürlich kann man sich auch andere sinnvolle Darstellungen dieses Ablaufs vorstellen.
1.1.7 PDF-Version
Sie können die Druck-Funktion Ihres Broswers nutzen, um ein PDF-Dokument eines Kapitels dieses Buchs zu erstellen.
1.2 Software
Sie benötigen R, RStudio und einige R-Pakete für diesen Kurs.
1.2.1 Installation
1.2.2 Viel R (?)
Dieses Buch enthält “mittel” viel R. Auf fortgeschrittene R-Techniken wurde aber komplett verzichtet. Dem einen oder der anderen Anfänger:in mag es dennoch “viel Code” erscheinen. Es wäre ja auch möglich gewesen, auf R zu verzichten und stattdessen eine “Klick-Software” zu verwenden. JASP oder Jamovi sind Beispiele für tolle Software aus dieser Kategorie. Ich glaube aber, der Verzicht auf eine Skriptsprache (R) wäre ein schlechter Dienst an den Studentis. Mit Blick auf eine “High-Tech-Zukunft” sollte man zumindest mit etwas Computer-Code vertraut sein. Auf Computercode zu verzichten erschiene mir daher fahrlässig für die “Zukunftsfestigkeit” der Ausbildung.
1.3 Hinweise
Der Unterricht zu diesem Modul wird nur ein Mal pro Jahr angeboten (also nur jedes zweite Semester).
Eine Prüfung in diesem Modul ist jedes Semester möglich.
1.4 Prüfung
Im Hinweisbuch finden Sie Hinweise zur Prüfung.4
1.5 Zum Autor
Nähere Hinweise zum Autor dieses Buch, Sebastian Sauer, finden Sie hier.5 Dort gibt es auch einen Überblick über weitere Bücher des Autors zum Themenkreis Datenanalyse.6
1.6 Nomenklatur
1.6.1 Farben
In Gleichungen werden zum Teil Farben verwendet, diese haben folgende Bedeutung:
- Y bzw. Abhängige Variable
- X bzw. Unabhängige Variable
- e bzw. Fehlerterm
- b0 bzw. Achsenabschnitt
- b1 bzw. Steigung (Regressionsgewicht)
- m bzw. y-Dach bzw. Modellwert
In Diagrammen werden auch Farben verwendet, die haben allerdings keine feste Bedeutung, sondern dienen der Übersichtlichkeit.
1.6.2 Griechische Buchstaben
In diesem Buch werden ein paar (wenige) griechische Buchstaben verwendet, die in der Statistik üblich sind.
Häufig werden griechische Buchstaben verwendet, um eine Grundgesamtheit (Population) zu beschreiben (die meistens unbekannt ist). Lateinische (“normale”) Buchstaben werden demgegenüber verwendet, um eine Stichprobe (Datensatz, vorliegende Daten) zu beschreiben.
Tabelle 1.1 stellt diese Buchstaben zusammen mit ihrer Aussprache und Bedeutung vor.
Zeichen | Aussprache | Buchstabe | Bedeutung in der Statistik |
---|---|---|---|
\(\beta\) | beta | b | Regressionskoeffizent |
\(\mu\) | mü | m | Mittelwert |
\(\sigma\) | sigma | s | Streuung |
\(\Sigma\) | Sigma | S | Summenzeichen |
\(\rho\) | rho | r | Korrelation (nach Pearson) |
Mehr griechische Buchstaben finden sich z.B. in Wikipedia.
1.7 Zitation
Bitte zitieren Sie dieses Buch wie folgt:
Sauer, S. (2024). Statistik1. https://statistik1.netlify.app/
Hier sind die maschinenlesbaren Zitationsinfos (Bibtex-Format), die Sie in Ihre Literatursoftware importieren können:
@book{sauer_statistik1,
title = {Statistik1},
rights = {CC-BY-NC},
url = {https://statistik1.netlify.app/},
author = {Sauer, Sebastian},
date = {2024},
}
Hier ist die DOI:
1.8 Reproduzierbarkeit
Die verwendeten R-Pakete sind mit renv dokumentiert.7
Der Quellcode ist in diesem Github-Repo dokumentiert.8
Dieses Dokument wurde erzeugt am/um 2024-04-26 09:06:09.
## ─ Session info ───────────────────────────────────────────────────────────────
## setting value
## version R version 4.2.1 (2022-06-23)
## os macOS Big Sur ... 10.16
## system x86_64, darwin17.0
## ui X11
## language (EN)
## collate en_US.UTF-8
## ctype en_US.UTF-8
## tz Europe/Berlin
## date 2024-04-26
## pandoc 3.1.12.2 @ /usr/local/bin/ (via rmarkdown)
##
## ─ Packages ───────────────────────────────────────────────────────────────────
## ! package * version date (UTC) lib source
## P cli 3.6.2 2023-12-11 [?] CRAN (R 4.2.0)
## P colorspace 2.1-0 2023-01-23 [?] CRAN (R 4.2.0)
## digest 0.6.35 2024-03-11 [1] RSPM (R 4.2.0)
## P dplyr 1.1.4 2023-11-17 [?] CRAN (R 4.2.0)
## P evaluate 0.23 2023-11-01 [?] CRAN (R 4.2.0)
## P fansi 1.0.6 2023-12-08 [?] CRAN (R 4.2.0)
## P fastmap 1.1.1 2023-02-24 [?] CRAN (R 4.2.0)
## P generics 0.1.3 2022-07-05 [?] CRAN (R 4.2.0)
## P ggplot2 3.5.0 2024-02-23 [?] CRAN (R 4.2.1)
## glue 1.7.0 2024-01-09 [1] RSPM (R 4.2.0)
## P gtable 0.3.4 2023-08-21 [?] CRAN (R 4.2.0)
## P htmltools 0.5.7 2023-11-03 [?] CRAN (R 4.2.0)
## P htmlwidgets 1.6.4 2023-12-06 [?] CRAN (R 4.2.0)
## P jsonlite 1.8.8 2023-12-04 [?] CRAN (R 4.2.0)
## P knitr * 1.45 2023-10-30 [?] CRAN (R 4.2.1)
## P lifecycle 1.0.4 2023-11-07 [?] CRAN (R 4.2.1)
## P magrittr 2.0.3 2022-03-30 [?] CRAN (R 4.2.0)
## P munsell 0.5.0 2018-06-12 [?] CRAN (R 4.2.0)
## P pillar 1.9.0 2023-03-22 [?] CRAN (R 4.2.0)
## P pkgconfig 2.0.3 2019-09-22 [?] CRAN (R 4.2.0)
## P R6 2.5.1 2021-08-19 [?] CRAN (R 4.2.0)
## renv 1.0.2 2023-08-15 [1] CRAN (R 4.2.0)
## P rlang 1.1.3 2024-01-10 [?] CRAN (R 4.2.1)
## P rmarkdown 2.26 2024-03-05 [?] CRAN (R 4.2.1)
## P rstudioapi 0.15.0 2023-07-07 [?] CRAN (R 4.2.0)
## P scales 1.3.0 2023-11-28 [?] CRAN (R 4.2.0)
## see 0.8.3 2024-03-24 [1] RSPM (R 4.2.0)
## P sessioninfo 1.2.2 2021-12-06 [?] CRAN (R 4.2.0)
## P tibble 3.2.1 2023-03-20 [?] CRAN (R 4.2.0)
## P tidyselect 1.2.0 2022-10-10 [?] CRAN (R 4.2.0)
## P utf8 1.2.4 2023-10-22 [?] CRAN (R 4.2.0)
## P vctrs 0.6.5 2023-12-01 [?] CRAN (R 4.2.0)
## xfun 0.42 2024-02-08 [1] RSPM (R 4.2.0)
## P yaml 2.3.8 2023-12-11 [?] CRAN (R 4.2.0)
##
## [1] /Users/sebastiansaueruser/github-repos/statistik1/renv/library/R-4.2/x86_64-apple-darwin17.0
## [2] /Users/sebastiansaueruser/Library/Caches/org.R-project.R/R/renv/sandbox/R-4.2/x86_64-apple-darwin17.0/fb4b0a46
##
## P ── Loaded and on-disk path mismatch.
##
## ──────────────────────────────────────────────────────────────────────────────
1.9 Literatur
Darauf dis Studenti: “Hpmf.”↩︎
https://hinweisbuch.netlify.app/hinweise-pruefung-prognosewettbewerb-frame↩︎
<(https://sebastiansauer-academic.netlify.app/#ebooks>↩︎