Welches Bild zeigt Bestimmungsstücke der Definition von Statistik?
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Sie vergleichen zwei Datensätze, die identische Mittelwerte und Standardabweichungen aufweisen. Das Streudiagramm zeigt jedoch beim ersten Datensatz eine Wolke und beim zweiten eine Dinosaurier-Form. Welche Erkenntnis aus Anscombes Quartett lässt sich hier anwenden? Betrachten Sie die Grenzen rein numerischer Kennzahlen.
Anscombes Quartett und der „Datasaurus“ zeigen, dass völlig unterschiedliche Datenstrukturen dieselben Kennwerte haben können. Nur eine Visualisierung macht diese Unterschiede sichtbar.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Sie arbeiten mit einem Datensatz über Kunden. Die Variable geschlecht ist nominalskaliert. Was ist die sinnvollste Operation, wenn Sie wissen wollen, wie viele Männer und Frauen im Datensatz sind?
Bei nominalen Daten ist das Zählen der Häufigkeiten die Standardoperation. count() ist dafür die effizienteste Funktion.
- Falsch
- Falsch
- Falsch
- Richtig
- Falsch
Sie erstellen einen Vektor mit folgendem Befehl: test_vektor <- c(1, "2", 3). Was passiert, wenn Sie versuchen, den Mittelwert mit mean(test_vektor) zu berechnen?
In R müssen alle Elemente eines Vektors denselben Typ haben. Wenn Text (“2”) enthalten ist, werden auch die Zahlen als Text gespeichert. Arithmetische Funktionen wie mean() können auf Text-Vektoren nicht angewendet werden und liefern NA (mit einer Warnung).
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Was ist das entscheidende Merkmal eines “Punktmodells” in der Statistik? Denken Sie an die Anzahl der vorhergesagten Werte.
Ein Punktmodell fasst eine Wertereihe zu einer einzigen Zahl zusammen. Jede Person erhält somit die gleiche Vorhersage, unabhängig von anderen Merkmalen.
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Wie greifen Sie mit dem Dollar-Operator auf die Spalte „Note“ in einer Tabelle namens „Ergebnisse“ zu?
Der Dollar-Operator trennt den Namen der Tabelle vom Namen der gewünschten Spalte (Tabelle$Spalte).
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Sie möchten in einem Datensatz nur die Spiele finden, die weniger als 50 Euro kosten und gleichzeitig neuwertig sind. Welche logische Verknüpfung innerhalb der Funktion filter() ist hierfür zwingend erforderlich? Ein falscher Operator würde entweder zu viele oder gar keine Ergebnisse liefern. Denken Sie an die Mengenlehre beim Filtern von Beobachtungen.
Um Zeilen zu finden, die mehrere Kriterien gleichzeitig erfüllen müssen, nutzt man das logische UND (&). Das ODER (|) würde auch gebrauchte Spiele oder teure neue Spiele anzeigen.
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Sie nutzen eine Funktion mit folgenden Argumenten: f(x, y = 10). Was passiert, wenn Sie die Funktion mit f(5) aufrufen?
Argumente mit Gleichheitszeichen in der Funktionsdefinition (hier y = 10) sind Defaults (Voreinstellungen). Werden sie beim Aufruf nicht angegeben, nutzt R automatisch den Standardwert.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Warum kann ein gruppiertes Mittelwert-Modell (z. B. getrennt nach Geschlecht) besser sein als ein ungruppierter Mittelwert? Beziehen Sie sich auf die Fehlerbalken (Residuen).
Durch die Berücksichtigung einer Gruppierung (z. B. \(y \sim G\)) passt sich das Modell besser an die Daten an. Dies führt dazu, dass die Vorhersagefehler innerhalb der Gruppen oft deutlich sinken.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Sie betrachten den Zusammenhang zwischen „Lernzeit“ und „Freizeit“ bei Studierenden. In der Regel gilt: Je mehr jemand lernt, desto weniger Freizeit hat er zur Verfügung. Welches Ergebnis erwarten Sie für den Korrelationskoeffizienten r in einer entsprechenden Untersuchung? Übertragen Sie die inhaltliche Beschreibung auf das Vorzeichen und den Wertebereich von r.
Ein gegensinniger Zusammenhang (viel von X, wenig von Y) führt mathematisch zu einer negativen Korrelation.
- Falsch
- Falsch
- Falsch
- Richtig
- Falsch
Ein Forscher untersucht den Zusammenhang zwischen dem monatlichen Einkommen (in Euro) und der Lebenszufriedenheit. Er beschließt nun, das Einkommen für seine nächste Veröffentlichung in Cent statt in Euro anzugeben. Welche statistische Kennzahl wird sich durch diese Änderung der Skalierung massiv verändern? Betrachten Sie die mathematische Definition von Kovarianz und Korrelation.
Die Kovarianz ist abhängig von der Skalierung der Variablen. Da das Einkommen nun mit dem Faktor 100 multipliziert wird, steigt auch die Kovarianz an, während die Korrelation (r) skaleninvariant bleibt.
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Das “Lego-Prinzip” im Datenjudo besagt, dass man komplexe Analysen in kleine Teilschritte zerlegen sollte. Welche der folgenden Aussagen beschreibt einen Nachteil, wenn man dieses Prinzip NICHT beachtet und stattdessen riesige, verschachtelte Funktionen schreibt?
Die Zerlegung in Teilschritte (Lego-Prinzip) dient primär der Übersichtlichkeit und der Fehlervermeidung. Verschachtelter Code ist für Menschen sehr schwer zu interpretieren.
- Falsch
- Falsch
- Falsch
- Richtig
- Falsch
Was ist das Ergebnis der Logikprüfung x <- 5; x == 6?
Der Befehl x <- 5 weist der Variable den Wert 5 zu. Die Prüfung x == 6 fragt R: “Ist der Inhalt von x gleich 6?”. Da dies nicht der Fall ist, ist das Ergebnis der logische Wert FALSE.
- Richtig
- Falsch
- Falsch
- Falsch
- Falsch
Vier Abweichungen von einem Mittelwert betragen: 1, -3, 1 und 1. Wie hoch ist der Mean Absolute Error (MAE) für diese Daten? Wenden Sie die Definition der mittleren Absolutabweichung an. Beachten Sie den Umgang mit negativen Vorzeichen.
Der MAE berechnet sich aus der Summe der Absolutbeträge der Fehler geteilt durch n. Hier: (1 + 3 + 1 + 1) / 4 = 6 / 4 = 1,5.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Was passiert standardmäßig, wenn Sie die Funktion mean() auf einen Vektor anwenden, der mindestens ein NA enthält?
Im Standard liefert mean() NA zurück, um den Nutzer darauf aufmerksam zu machen, dass Daten fehlen. Um dies zu ändern, muss das Argument na.rm = TRUE gesetzt werden.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Angenommen, Sie haben eine Spalte preis_usd. Sie möchten eine neue Spalte preis_euro hinzufügen, ohne die alte Spalte zu löschen. Welches Verb ist hierfür geeignet?
mutate() wird verwendet, um neue Spalten zu berechnen oder bestehende zu verändern. Die Anzahl der Zeilen bleibt dabei immer gleich.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Ein Datensatz umfrage enthält eine Spalte alter mit den Werten c(20, 25, NA, 30). Welcher der folgenden Befehle führt dazu, dass R einen numerischen Wert für den Mittelwert ausgibt, anstatt NA?
Standardmäßig geben viele Funktionen in R NA zurück, wenn nur ein fehlender Wert vorhanden ist. Das Argument na.rm = TRUE (NA remove) weist R an, die fehlenden Werte für die Berechnung zu ignorieren.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Sie finden eine negative Steigung (\(\beta_1 < 0\)) in einem Modell zum Zusammenhang von “Fehlzeiten” (x) und “Prüfungsnote” (y). Die Note wird als Punktzahl gemessen (höher ist besser). Was sagt dieses Modell über den Zusammenhang aus? Interpretieren Sie die Richtung der Regressionsgeraden.
Eine negative Steigung bedeutet einen gegensinnigen Zusammenhang. Steigt die eine Variable (Fehlzeiten), sinkt die Vorhersage für die andere (Punkte).
- Richtig
- Falsch
- Falsch
- Falsch
- Falsch
Gegeben ist eine normalverteilte Variable (IQ) mit einem Mittelwert von 100 und einer Streuung von 15. Ein Student erzielt einen Wert von 130 Punkten. Welcher Anteil der Bevölkerung liegt laut der 68-95-99.7-Prozentregel über diesem Wert? Kombinieren Sie das Wissen über die Standardabweichung mit der Flächenverteilung.
Ein Wert von 130 entspricht dem Mittelwert plus zwei Standardabweichungen. Innerhalb von zwei Standardabweichungen liegen 95 %, außerhalb also 5 %. Da die Verteilung symmetrisch ist, entfallen 2,5 % auf den Bereich über 130.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Sie nutzen die Pfeife |> um mehrere Befehle zu verketten. Was ist der entscheidende Vorteil dieser Schreibweise gegenüber verschachtelten Funktionen wie f(g(h(x)))? Betrachten Sie den Lesefluss und die Fehleranfälligkeit bei vielen Klammern.
Die Pfeife (|> oder %>%) verbessert die Lesbarkeit, indem sie Daten wie am Fließband von links nach rechts durch Funktionen reicht. Das erste Argument der nachfolgenden Funktion wird dabei automatisch befüllt.
- Falsch
- Falsch
- Falsch
- Richtig
- Falsch
Ein Marktforscher möchte untersuchen, ob sich die Kaufbereitschaft (metrisch) zwischen drei Altersgruppen unterscheidet. Welches Diagramm ist laut der Nomenklatur für diesen „Unterschied“ bei einer quantitativen Variable am besten geeignet? Es geht um den effizienten Vergleich von Verteilungen.
Laut der Nomenklatur ist der Boxplot das Standardwerkzeug, um Unterschiede einer quantitativen Variable zwischen Gruppen zu zeigen.
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Warum verbringen Datenwissenschaftler laut Harvard Business Review oft 80% ihrer Zeit mit Datenjudo?
Daten in der echten Welt sind selten “sauber”. Das Aufbereiten, Bereinigen und Umformen ist der zeitintensivste Teil der Datenanalyse.
- Richtig
- Falsch
- Falsch
- Falsch
- Falsch
Gegeben ist die Gleichung \(y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i\). Ein Student hat laut Modell einen vorhergesagten Wert von 80 Punkten (\(\hat{y} = 80\)). Tatsächlich hat er in der Klausur aber 85 Punkte erreicht (\(y = 85\)). Wie groß ist das Residuum (\(\epsilon\)) für diesen Studenten? Nutzen Sie die Formel für den Vorhersagefehler.
Das Residuum ist definiert als beobachteter Wert minus vorhergesagter Wert: \(e = y - \hat{y}\). Hier: 85 - 80 = 5.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Ein Datensatz weist einen sehr extremen Ausreißer auf. Welches Streuungsmaß ist in dieser Situation am ehesten zu empfehlen, um ein verzerrtes Bild zu vermeiden? Nutzen Sie das Konzept der Robustheit.
Der IQR basiert auf Quantilen (Q3 - Q1) und ignoriert die extremen Ränder der Verteilung. Dadurch bleibt er stabil, selbst wenn einzelne Werte extrem abweichen.
- Falsch
- Falsch
- Falsch
- Richtig
- Falsch
Warum wird in der Statistik die Standardabweichung (SD) oft der Varianz vorgezogen, wenn es um die Beschreibung von Daten geht? Betrachten Sie die mathematische Transformation bei der Berechnung der SD. Überlegen Sie, was mit der Maßeinheit der Daten passiert.
Die Varianz nutzt quadrierte Abweichungen, was die Einheit verändert (z. B. Quadrat-Euro). Durch das Wurzelziehen bei der SD kehrt man zur ursprünglichen Einheit (z. B. Euro) zurück.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Ein Statistikkurs besteht aus fünf Personen mit den Noten 1, 2, 3, 4 und 5. Der Professor behauptet, der Mittelwert von 3 sei ein “Modell” für diese Daten. Welche mathematische Eigenschaft des Mittelwerts stützt diese Aussage am besten? Betrachten Sie die Summe der Abweichungen (Residuen) vom Mittelwert. Überlegen Sie, was passiert, wenn Sie alle \(e_i = y_i - \bar{x}\) addieren.
Der Mittelwert wirkt wie ein physikalischer Schwerpunkt (Wippe). Die Summe der Abweichungen nach oben und unten gleicht sich exakt aus, sodass ihre Summe Null ergibt.
- Falsch
- Falsch
- Falsch
- Falsch
- Richtig
Ihr Datensatz enthält einige fehlende Werte (NAs) in den Spalten für Preis und Gewicht. Sie verwenden den Standardbefehl cor(total_pr, weight) in R. Warum erhalten Sie als Ergebnis wahrscheinlich nur ein frustrierendes NA? Überlegen Sie, wie R standardmäßig mit unvollständigen Datenpaaren umgeht.
In R ist das Standardverhalten vieler Funktionen, NA zurückzugeben, wenn Daten fehlen. Man muss explizit use = "complete.obs" oder ähnliche Argumente verwenden, um dies zu umgehen.
- Falsch
- Richtig
- Falsch
- Falsch
- Falsch
Ein Analyst möchte einen Umsatzrückgang von 5 % als “dramatischen Absturz” darstellen. Welchen grafischen Trick wird er am wahrscheinlichsten anwenden? Manipulieren Sie die Wahrnehmung durch Achsenwahl.
Durch das „Abschneiden“ der Y-Achse (kein Nullpunkt) werden kleine Abweichungen optisch massiv vergrößert.
- Richtig
- Falsch
- Falsch
- Falsch
- Falsch
Die Korrelation r wird oft als „mittleres z-Produkt“ bezeichnet. Angenommen, in einem Datensatz haben alle Beobachtungen bei Variable X und Variable Y jeweils das gleiche Vorzeichen ihrer z-Werte. Das bedeutet: Wer bei X überdurchschnittlich ist, ist es auch bei Y, und wer unterdurchschnittlich ist, ist es in beiden. Welche Aussage über die Korrelation r trifft hier zu?
Wenn die z-Werte das gleiche Vorzeichen haben, ist ihr Produkt immer positiv. Da die Korrelation der Mittelwert dieser Produkte ist, muss das Ergebnis ebenfalls positiv sein.
- Falsch
- Falsch
- Richtig
- Falsch
- Falsch
Wofür steht die Abkürzung „NA“ in einem R-Vektor?
In R kennzeichnet NA fehlende Werte, die beispielsweise durch Verweigerung von Angaben bei Umfragen oder technische Fehler entstehen können.
- Richtig
- Falsch
- Falsch
- Falsch
- Falsch