Statistik1

Ein Einführungskurs in die Statistik mit einem Schwerpunkt auf Prognosemodellierung
Autor:in

Sebastian Sauer

Veröffentlichungsdatum

3. Mai 2024

Doi

1 Willkommen!

Statistik und Du: Guter Fit!

1.1 Es geht um Ihren Lernerfolg

Meister Yoda rät: Lesen Sie die Hinweise (Abbildung 1.1).

Abbildung 1.1: Lesen Sie die folgenden Hinweise im eigenen Interesse

Quelle: Imgflip Memengenerator

1.1.1 Lernziele

  • Die Studentis sind mit wesentlichen Methoden der explorativen Datenanalyse vertraut und können diese selbständig anwenden.

  • Die Studentis können gängige Forschungsfragen in lineare Modelle übersetzen, diese auf echte Datensätze anwenden und die Ergebnisse interpretieren.

Kurz gesagt: Das ist ein Grundkurs in Daten zähmen.

Daten zähmen

Bildquelle: Allison Horst, CC-BY

1.1.2 Was lerne ich hier und wozu ist das gut?

Was lerne ich hier?

Sie lernen das Handwerk der Datenanalyse mit einem Schwerpunkt auf Vorhersage. Anders gesagt: Sie lernen, Daten aufzubereiten und aus Daten Vorhersagen abzuleiten. Zum Beispiel: Kommt ein Student zu Ihnen und sagt “Ich habe 42 Stunden für die Klausur gelernt, welche Note kann ich in der Klausur erwarten?”. Darauf Ihre Antwort: “Auf Basis meiner Daten und meines Modells müsstest du eine 2.7 schreiben!”.1. Außerdem lernen Sie, wie man die Güte einer Vorhersage auf Stichhaltigkeit prüft. Denn Vorhersagen kann man ja in jeder Eckkneipe oder beim Wahrsager bekommen. Wir wollen aber belastbare Vorhersagen und zumindest wissen, wie gut die Vorhersagen (von jemanden) bisher waren.

Warum ist das wichtig?

Wir wollen nicht auf Leuten vertrauen, die behaupten, sie wüssten, was für uns richtig und gut ist. Wir wollen selber die Fakten prüfen können.

Wozu brauche ich das im Job?

Datenanalyse spielt bereits heute in vielen Berufen eine Rolle. Tendenz stark zunehmend.

Wozu brauche ich das im weiterem Studium?

In Forschungsarbeiten (wie in empirischen Forschungsprojekten, etwa in der Abschlussarbeit) ist es üblich, statistische Ergebnisse hinsichtlich quantitativ zu analysieren.

Ist Statistik nicht sehr abstrakt?

Der Schwerpunkt dieses Kurses liegt auf Anwenden und Tun; ähnlich dem Erlernen eines Handwerks. Theorien und Abstraktionen stehen nur am Rand.

Gibt es auch gute Jobs, wenn man sich mit Daten auskennt?

Das Forum (2020) berichtet zu den “Top 20 job roles in increasing and decreasing demand across industries” (S. 30, Abb. 22):

  1. Data Analysts und Scientists
  2. AI and Machine Learning Specialists
  3. Big Data Specialists

1.1.3 Was ist hier das Erfolgsgeheimnis?

Wichtig

Dran bleiben ist der Schlüssel zum Erfolg. \(\square\)

1.1.4 Motivieren Sie mich!

Schauen Sie sich das Video mit einer Ansprache zur Motivation an.2

1.1.5 Voraussetzungen

Um von diesem Kurs am besten zu profitieren, sollten Sie Folgendes mitbringen:

  • Bereitschaft, Neues zu lernen
  • Bereitschaft, nicht gleich aufzugeben
  • Kenntnis grundlegender Methoden wissenschaftlichen Arbeitens

Was Sie nicht brauchen, sind besondere Mathe-Vorkenntnisse.

1.1.6 Überblick

Abb. Abbildung 1.2 gibt einen Überblick über den Verlauf und die Inhalte des Buches. Das Diagramm hilft Ihnen zu verorten, wo welches Thema im Gesamtzusammenhang steht.

flowchart LR
  subgraph R[Rahmen]
    direction LR
    subgraph V[Vorbereiten]
      direction TB
      E[Einlesen] --> Um[Umformen]
    end
    subgraph M[Modellieren]
      direction TB
      M1[Verbildlichen] --> Vis[Punktmodelle]
      Vis --> U[Modellguete]
      U --> G[Geradenmodelle]
    end
    subgraph N[Nachbereiten]
      direction TB
      D[Diskutieren]
    end
  V --> M
  M --> N
  end

Abbildung 1.2: Überblick über den Inhalt und Verlauf des Buches

Das Diagramm zeigt den Ablauf einer typischen Datenanalyse. Natürlich kann man sich auch andere sinnvolle Darstellungen dieses Ablaufs vorstellen.

1.1.7 PDF-Version

Sie können die Druck-Funktion Ihres Broswers nutzen, um ein PDF-Dokument eines Kapitels dieses Buchs zu erstellen.

1.2 Software

Sie benötigen R, RStudio und einige R-Pakete für diesen Kurs.

1.2.1 Installation

Hier finden Sie Installationshinweise.3

1.2.2 Viel R (?)

Dieses Buch enthält “mittel” viel R. Auf fortgeschrittene R-Techniken wurde aber komplett verzichtet. Dem einen oder der anderen Anfänger:in mag es dennoch “viel Code” erscheinen. Es wäre ja auch möglich gewesen, auf R zu verzichten und stattdessen eine “Klick-Software” zu verwenden. JASP oder Jamovi sind Beispiele für tolle Software aus dieser Kategorie. Ich glaube aber, der Verzicht auf eine Skriptsprache (R) wäre ein schlechter Dienst an den Studentis. Mit Blick auf eine “High-Tech-Zukunft” sollte man zumindest mit etwas Computer-Code vertraut sein. Auf Computercode zu verzichten erschiene mir daher fahrlässig für die “Zukunftsfestigkeit” der Ausbildung.

Das sind Sie nach der Lektüre dieses Buchs

1.3 Hinweise

1.4 Prüfung

Im Hinweisbuch finden Sie Hinweise zur Prüfung.4

1.5 Zum Autor

Nähere Hinweise zum Autor dieses Buch, Sebastian Sauer, finden Sie hier.5 Dort gibt es auch einen Überblick über weitere Bücher des Autors zum Themenkreis Datenanalyse.6

1.6 Nomenklatur

1.6.1 Farben

In Gleichungen werden zum Teil Farben verwendet, diese haben folgende Bedeutung:

  • Y bzw. Abhängige Variable
  • X bzw. Unabhängige Variable
  • e bzw. Fehlerterm
  • b0 bzw. Achsenabschnitt
  • b1 bzw. Steigung (Regressionsgewicht)
  • m bzw. y-Dach bzw. Modellwert

In Diagrammen werden auch Farben verwendet, die haben allerdings keine feste Bedeutung, sondern dienen der Übersichtlichkeit.

1.6.2 Griechische Buchstaben

In diesem Buch werden ein paar (wenige) griechische Buchstaben verwendet, die in der Statistik üblich sind.

Häufig werden griechische Buchstaben verwendet, um eine Grundgesamtheit (Population) zu beschreiben (die meistens unbekannt ist). Lateinische (“normale”) Buchstaben werden demgegenüber verwendet, um eine Stichprobe (Datensatz, vorliegende Daten) zu beschreiben.

Tabelle 1.1 stellt diese Buchstaben zusammen mit ihrer Aussprache und Bedeutung vor.

Tabelle 1.1: Griechische Buchstaben, die in diesem Buch verwendet werden.
Zeichen Aussprache Buchstabe Bedeutung in der Statistik
\(\beta\) beta b Regressionskoeffizent
\(\mu\) m Mittelwert
\(\sigma\) sigma s Streuung
\(\Sigma\) Sigma S Summenzeichen
\(\rho\) rho r Korrelation (nach Pearson)

Mehr griechische Buchstaben finden sich z.B. in Wikipedia.

1.7 Zitation

Bitte zitieren Sie dieses Buch wie folgt:

Sauer, S. (2024). Statistik1. https://statistik1.netlify.app/

Hier sind die maschinenlesbaren Zitationsinfos (Bibtex-Format), die Sie in Ihre Literatursoftware importieren können:

@book{sauer_statistik1,
    title = {Statistik1},
    rights = {CC-BY-NC},
    url = {https://statistik1.netlify.app/},
    author = {Sauer, Sebastian},
    date = {2024},
}

Hier ist die DOI:

DOI

DOI

1.8 Reproduzierbarkeit

Die verwendeten R-Pakete sind mit renv dokumentiert.7

Der Quellcode ist in diesem Github-Repo dokumentiert.8

Dieses Dokument wurde erzeugt am/um 2024-04-26 09:06:09.

## ─ Session info ───────────────────────────────────────────────────────────────
##  setting  value
##  version  R version 4.2.1 (2022-06-23)
##  os       macOS Big Sur ... 10.16
##  system   x86_64, darwin17.0
##  ui       X11
##  language (EN)
##  collate  en_US.UTF-8
##  ctype    en_US.UTF-8
##  tz       Europe/Berlin
##  date     2024-04-26
##  pandoc   3.1.12.2 @ /usr/local/bin/ (via rmarkdown)
## 
## ─ Packages ───────────────────────────────────────────────────────────────────
##  ! package     * version date (UTC) lib source
##  P cli           3.6.2   2023-12-11 [?] CRAN (R 4.2.0)
##  P colorspace    2.1-0   2023-01-23 [?] CRAN (R 4.2.0)
##    digest        0.6.35  2024-03-11 [1] RSPM (R 4.2.0)
##  P dplyr         1.1.4   2023-11-17 [?] CRAN (R 4.2.0)
##  P evaluate      0.23    2023-11-01 [?] CRAN (R 4.2.0)
##  P fansi         1.0.6   2023-12-08 [?] CRAN (R 4.2.0)
##  P fastmap       1.1.1   2023-02-24 [?] CRAN (R 4.2.0)
##  P generics      0.1.3   2022-07-05 [?] CRAN (R 4.2.0)
##  P ggplot2       3.5.0   2024-02-23 [?] CRAN (R 4.2.1)
##    glue          1.7.0   2024-01-09 [1] RSPM (R 4.2.0)
##  P gtable        0.3.4   2023-08-21 [?] CRAN (R 4.2.0)
##  P htmltools     0.5.7   2023-11-03 [?] CRAN (R 4.2.0)
##  P htmlwidgets   1.6.4   2023-12-06 [?] CRAN (R 4.2.0)
##  P jsonlite      1.8.8   2023-12-04 [?] CRAN (R 4.2.0)
##  P knitr       * 1.45    2023-10-30 [?] CRAN (R 4.2.1)
##  P lifecycle     1.0.4   2023-11-07 [?] CRAN (R 4.2.1)
##  P magrittr      2.0.3   2022-03-30 [?] CRAN (R 4.2.0)
##  P munsell       0.5.0   2018-06-12 [?] CRAN (R 4.2.0)
##  P pillar        1.9.0   2023-03-22 [?] CRAN (R 4.2.0)
##  P pkgconfig     2.0.3   2019-09-22 [?] CRAN (R 4.2.0)
##  P R6            2.5.1   2021-08-19 [?] CRAN (R 4.2.0)
##    renv          1.0.2   2023-08-15 [1] CRAN (R 4.2.0)
##  P rlang         1.1.3   2024-01-10 [?] CRAN (R 4.2.1)
##  P rmarkdown     2.26    2024-03-05 [?] CRAN (R 4.2.1)
##  P rstudioapi    0.15.0  2023-07-07 [?] CRAN (R 4.2.0)
##  P scales        1.3.0   2023-11-28 [?] CRAN (R 4.2.0)
##    see           0.8.3   2024-03-24 [1] RSPM (R 4.2.0)
##  P sessioninfo   1.2.2   2021-12-06 [?] CRAN (R 4.2.0)
##  P tibble        3.2.1   2023-03-20 [?] CRAN (R 4.2.0)
##  P tidyselect    1.2.0   2022-10-10 [?] CRAN (R 4.2.0)
##  P utf8          1.2.4   2023-10-22 [?] CRAN (R 4.2.0)
##  P vctrs         0.6.5   2023-12-01 [?] CRAN (R 4.2.0)
##    xfun          0.42    2024-02-08 [1] RSPM (R 4.2.0)
##  P yaml          2.3.8   2023-12-11 [?] CRAN (R 4.2.0)
## 
##  [1] /Users/sebastiansaueruser/github-repos/statistik1/renv/library/R-4.2/x86_64-apple-darwin17.0
##  [2] /Users/sebastiansaueruser/Library/Caches/org.R-project.R/R/renv/sandbox/R-4.2/x86_64-apple-darwin17.0/fb4b0a46
## 
##  P ── Loaded and on-disk path mismatch.
## 
## ──────────────────────────────────────────────────────────────────────────────

1.9 Literatur


  1. Darauf dis Studenti: “Hpmf.”↩︎

  2. https://youtu.be/jtNlzpcPr5Y↩︎

  3. https://hinweisbuch.netlify.app/hinweise-software↩︎

  4. https://hinweisbuch.netlify.app/hinweise-pruefung-prognosewettbewerb-frame↩︎

  5. https://sebastiansauer-academic.netlify.app/↩︎

  6. <(https://sebastiansauer-academic.netlify.app/#ebooks>↩︎

  7. https://rstudio.github.io/renv/index.html↩︎

  8. https://github.com/sebastiansauer/statistik1↩︎