Einleitung
Die Effektgröße Cohen’s d dient dazu, die Abweichung des Gruppenmittelwerts einer Stichprobe von einem bestimmten Wert µ0 bzw. den Mittelwertsunterschied von zwei unabhängigen Stichproben im Sinne von anteiligen Standardabweichungen metrikfrei zu beschreiben. Da Cohen’s d standardisiert ist, ist ein Vergleich von mehreren Werten für Cohen’s d aus verschiedenen Messinstrumenten bzw. Studien zum Beispiel bei Metaanalysen möglich (Thompson, 2002, S. 27). Um die Größe und damit die Bedeutung eines gefundenen Effekts beurteilen zu können, halten sich viele Forscherinnen und Forscher an die Richtwerte von Cohen (Cohen, 1988, S. 25f.; s. auch Ellis, 2010, S. 41), der eine gemessene Effektgröße in klein (d = 0,2), mittel (d = 0,5) oder groß (d = 0,8) einteilt. Die Arbeitsgruppe für statistische Inferenz der American Psychological Association (APA) betont in ihren Guidelines and Explanations (Wilkinson and the Task Force on Statistical Inference, 1999, S. 599), dass es für gute Forschung unabdingbar sei, Effektgrößen im Kontext von aus der Literatur bereits bekannten Effektgrößen zu berichten und zu interpretieren. Dadurch könnten Leserinnen und Leser von Forschungsberichten beurteilen, ob die Ergebnisse über Stichproben, Designs und Analysen hinweg stabil sind. Dennoch wird dieser dringenden Empfehlung bis heute in der Fachliteratur kaum nachgekommen (Platz, Kopiez & Lehmann, 2012).
Ein Konfidenzintervall für Cohen’s d gibt Aufschluss über die Genauigkeit, mit der der Populationsparameter δ durch die Stichprobenstatistik d geschätzt wurdei. Ein 95%-Konfidenzintervall für den Populationsparameter δ bedeutet, dass bei wiederholter Ziehung einer gleich großen Stichprobe 95% der 95%-Konfidenzintervalle den tatsächlichen Populationsparameter der Effektgröße δ enthalten.
In dem in dieser Reihe erschienenen Artikel Statistische Poweranalyse als Weg zu einer 'kraftvolleren' Musikpsychologie im 21. Jahrhundert (Platz et al., 2012) wurde im Rahmen einer Post-hoc-Analyse mit Hilfe der Standardnormalverteilung das 95%-Konfidenzintervall für die Effektgröße d = 1,71 berechnet, welches Werte von 0,18 bis 3,24 umfasst. In diesem Beitrag wird eine Weiterentwicklung der bisherigen Vorgehensweise vorgeschlagen und es soll gezeigt werden, wie Konfidenzintervalle für Cohen’s d mit Hilfe von nichtzentralen t-Verteilungen präziser berechnet werden können. Die hier vorgeschlagene methodische Vorgehensweise unterscheidet sich von der in Platz et al. (2012) gezeigten: Das mit Hilfe der nichtzentralen t-Verteilung ermittelte 95%-Konfidenzintervall für die Effektgröße d = 1,71 ist [0,09; 3,25] und damit breiter als das von Platz et al. berechnete Konfidenzintervall [0,18; 3,24]. Dies lässt darauf schließen, dass wegen des geringen Stichprobenumfangs (n = 4 und m = 5) in der von Platz et al. reanalysierten Studie die Schätzung noch unpräziser ist als von Platz et al. bereits angenommen.
Vorteile der nichtzentralen t-Verteilung und Vorgehensweise
Im Folgenden soll begründet werden, warum nichtzentrale t-Verteilungen zur Bestimmung von Konfidenzintervallen für Cohen’s d benötigt werden und wie diese schließlich berechnet werden. Dazu betrachte man zunächst die im zweiten Kasten in Abbildung 1 angegebenen Formeln für Cohen’s d für eine (linke Seite) und für zwei unabhängige Stichproben (rechte Seite). Hierbei fällt auf, dass die Verteilungen der Teststatistiken von d ( bzw. ) von zwei Verteilungen, nämlich der Verteilung von bzw. von und der Verteilung von bzw. abhängen. Dies steht im Gegensatz zur Teststatistik , die nur von einer Verteilung abhängt. Daher können Konfidenzintervalle für die Effektgröße Cohen’s d nicht auf dieselbe Art und Weise wie Konfidenzintervalle für den Erwartungswert µ berechnet werden.
Abbildung 1
Von den deskriptiven Statistiken zum Konfidenzintervall für Cohen’s d. Die linke Seite des Flussdiagramms stellt das Vorgehen für eine Stichprobe und die Abweichung des Mittelwerts von einem bestimmten Wert µ0 (z. B. µ0 = 0) dar. Die rechte Seite zeigt das Vorgehen für zwei unabhängige Stichproben. Die Indizes L bzw. U stehen für die untere (lower) bzw. obere (upper) Intervallgrenze. Die Standardabweichung und die zusammengefasste Standardabweichung seien folgendermaßen definiert: und , wobei n und m die Größen der Stichproben A und B sind.
Die Idee für die Bestimmung eines Konfidenzintervalls für Cohen’s d (Cumming & Finch, 2001, S. 550f.; Smithson, 2003, S. 34 ff.) besteht darin, ein Konfidenzintervall [ΔL, ΔU] für den sog. Nichtzentralitätsparameter Δ zu suchen und dieses mit Hilfe der Beziehung Δ = δ bzw. Δ = δ wie in Abbildung 1 verdeutlicht in ein Konfidenzintervall für δ umzuwandeln.
Die Teststatistik von Δ ( bzw. ) hat eine nichtzentrale t-Verteilung mit n - 1 bzw. n + m - 2 Freiheitsgraden und Nichtzentralitätsparameter Δ = bzw. Δ = , wenn von einer Normalverteilung mit Streuung σ der identisch verteilten, paarweise stochastisch unabhängigen, reellen Zufallsvariablen und ausgegangen wird. Warum dies so ist, soll hier nicht näher erläutert werden. Für detaillierte Informationen sei stattdessen auf Smithson (2003, S. 33 ff.) verwiesen. Wegen der nichtzentralen t-Verteilung ist der Umgang mit der Teststatistik von Δ komplexer. Es gibt beispielsweise keine Tabellen für bestimmte t-Quantile wie für die zentrale t-Verteilung. Abhilfe schaffen die beiden Programme CI1.R und CI2.R in R, mit deren Hilfe die Grenzen des Konfidenzintervalls für bei einer (CI1.R) bzw. bei zwei (CI2.R) unabhängigen Stichproben bestimmt werden können. Der jeweils erste Teil der beiden Programme stammt hierbei von Smithson (Smithson, 2019). Der Code wurde leicht verändert. Die Programme benötigen als Eingabewerte das Konfidenzniveau (z. B. 95%), die Stichprobengröße(n), den Mittelwert bzw. die Mittelwerte und die Standardabweichung(en). Die Software ist als ergänzendes Material verfügbar.
Anwendungsbeispiel
Das Vorgehen soll nun an einem Beispiel verdeutlicht werden, in dem das 95%-Konfidenzintervall für Cohen’s d für den Mittelwertsunterschied der Variable mean_NEO zwischen zwei unabhängigen Stichproben (Frauen und Männer) berechnet wird. Der Datensatz hierfür stammt aus den Beispieldatensätzen, welche das Statistik-Programm JASP zur Verfügung stellt und heißt Kitchen Rolls - A nice t-test data set. (Die vollständigen Beispieldateien für JASP sind als ergänzende Materialien verfügbar.) Die Daten wurden in einer Studie von Wagenmakers et al. (2015) erhoben. Hierbei wurde mittels zwölf Items der „Openness to experience“-Subskala aus dem Neurotizismus-Extraversion-Offenheits-Persönlichkeitsinventar (NEO PI-R; Costa & McCrae, 1992) die Vorliebe für neuartige Erfahrungen und Aktivitäten gemessen. Die Variable mean_NEO wird durch den Mittelwert der Antworten auf diese zwölf Items gebildet. Die Mittelwerte und Standardabweichungen von mean_NEO sind in Tabelle 1 dargestellt.
Das Programm CI2.R berechnet als Effektgröße . Das vom Programm ermittelte 95%-Konfidenzintervall für Δ ist [-5,36; -1,33]. Daraus folgt schließlich [-1,23; -0,31] für das gesuchte 95%-Konfidenzintervall für δ. Die negativen Werte kommen dadurch zustanden, dass der Mittelwert der Frauen (0,592) kleiner als der der Männer (0,947) und daher die Differenz negativ ist. Für die Interpretation benötigt man den absoluten Wert der Effektgröße, also d = 0,77. Laut Cohens Benchmarks (Cohen, 1988, S. 25f.; s. auch Ellis, 2010, S. 41) ist dies ein mittlerer bis großer Effekt. Das Konfidenzintervall [0,31; 1,23] lässt jedoch vermuten, dass ein kleiner bis großer Effekt vorliegt. Die Schätzung des Populationsparameters δ ist demnach nicht besonders präzise.
Schlussfolgerungen
Die nichtzentrale t-Verteilung wurde Smithson (Smithson, 2003, S. 41) zufolge noch in den 1980er-Jahren außer Acht gelassen, weil sie ohne passende Software nicht verwendbar war. Ihre Wiederentdeckung in den 1990er-Jahren und die Verfügbarkeit benutzerfreundlicher Software für ihre Berechnung (Smithson, 2003, S. 41) wie beispielsweise die hier vorgestellten Programme CI1.R und CI2.R sollten Forscherinnen und Forscher nun darin bestärken, mehr Gebrauch von nichtzentralen t-Verteilungen zu machen. Damit können sie von dem Vorteil profitieren, dass die Schätzung des Populationsparameters δ mit Hilfe der nichtzentralen t-Verteilung vor allem bei kleinen Stichproben mathematisch exakter ist als mit Hilfe der zentralen t-Verteilung.