Ist es möglich, dass eine Person ein gutes Rhythmusgefühl hat, aber beim Singen keinen Ton trifft? Gibt es Personen, die zwar mit Leichtigkeit jede Melodie im Gedächtnis behalten, aber kein Gespür dafür haben, welche Emotionen ein Musikstück vermittelt? Obwohl bereits seit mehr als 200 Jahren über Musikalität und musikalische Fähigkeiten geforscht wird (siehe z. B. Michaelis, 1805), gibt es keine definitive Antwort auf diese Fragen, da nicht bekannt ist, wie viele verschiedene, unabhängige Facetten von Musikalität existieren. Die Struktur musikalischer Fähigkeiten ist bislang nicht eindeutig identifiziert (Müllensiefen & Hemming, 2018, S. 115; Gembris, 1997, S. 869) und aus den Forschungsergebnissen bisheriger Studien können „keine endgültigen Aussagen” (Gembris et al., 1997, S. 869) darüber abgeleitet werden. Angelehnt an Fodors (1983) Theorie der Modularität des Geistes haben Peretz und Coltheart (2003) ein Modell für die Verarbeitung von Musik formuliert, welches in verschiedene Module gegliedert ist. Dieses Modell legt nahe, dass die Verarbeitung von Musik modular in neuronal isolierbaren Komponenten organisiert ist. Als Beleg dafür werden musikbezogene Defizite bei neurologisch beeinträchtigten Menschen aufgeführt. In der hier vorgestellten Studie wird die Frage beantwortet, ob dieses Konzept der Einteilung musikalischer Verarbeitungsprozesse in mehrere Module auch auf musikalische Fähigkeiten im Jugendalter übertragbar ist. Musikalische Fähigkeiten werden hierbei verstanden als geschätztes und nicht direkt beobachtbares Entwicklungspotential, welches musikalischen Fertigkeiten zugrunde liegt. Musikalische Fertigkeiten sind wiederum definiert als tatsächlich erbrachte und über geeignete Tests messbare, lern- und erfahrungsabhängige, musikalische Leistungen (Müllensiefen & Hemming, 2018, S. 97; Gembris et al., 1997, S. 868).
In der Geschichte der Musikalitätstests spiegelt sich die Grundfrage über die Struktur musikalischer Fähigkeiten in den Testkonzeptionen und -konstruktionen von Wing (1961) und Seashore (1919b) wider: Als „der erste moderne standardisierte Musiktest” (Müllensiefen & Hemming, 2018, S. 95) ermittelt der Test Seashore Measures of Musical Talent (Seashore, 1919b) mittels sechs Subtests für Tonhöhe, Lautstärke, Rhythmus, Tondauer, Timbre und tonales Gedächtnis (Müllensiefen & Hemming, 2018, S. 103) „ein Profil einzelner und unverbundener grundlegender musikalischer Fertigkeiten” (Müllensiefen & Hemming, 2018, S. 99) gemäß eines multifaktoriellen Musikalitätskonzepts. Die Ergebnisse der einzelnen Subtests werden jedoch nicht zu einem Summenwert zusammengefasst, sondern bilden stattdessen ein Profil multipler, voneinander relativ unabhängiger musikalischer Fähigkeiten (Boyle & Radocy, 1987, S. 143). Dies macht deutlich, dass Seashore ein einheitliches Konstrukt musikalischer Fähigkeiten als eine einzelne Begabung ablehnte. Im Gegensatz dazu stehen Wings (1961) Standardized Tests of Musical Intelligence und sein Konzept des musikalischen General- bzw. g-Faktors. Gemäß eines Generalfaktormodells (Gembris et al., 1997, Sp. 869) nimmt er an, dass einzelnen elementaren, „messbaren musikalischen Fertigkeiten ein einheitliches Konstrukt zugrunde liegt” (Müllensiefen & Hemming, 2018, S. 99) – und kein multiples Konstrukt wie bei Seashore – und dass sie als musikalischer Generalfaktor miteinander verbunden sind. Daher aggregiert der Wing-Test die Ergebnisse der einzelnen sieben Subtests zu einem einzigen Gesamttestwert für musikalische Intelligenz, dem sogenannten Musikalitätsquotienten (MQ; Boyle & Radocy, 1987, S. 146), der eine Analogie zum g-Faktor in der Intelligenzforschung darstellt.
Eine frühere Studie, die allgemeiner die Faktorenstruktur von Hörfähigkeiten untersuchte, stammt von Stankov und Horn (1980; vgl. Müllensiefen, 2017b, S. 130). In einer Re-Analyse der Testbatterien, unter anderem von Seashore et al. (1960), Wing (1962) und Drake (1954), fanden sie zwischen den Ergebnissen von 241 erwachsenen Männern in vielen der insgesamt 44 untersuchten Subtests starke Korrelationen. Dadurch konnten sie „sieben Faktoren auditorischer Fähigkeiten” (Müllensiefen, 2017b, S. 130) identifizieren, von denen drei hauptsächlich musikalische Fähigkeiten beschreiben: „auditorische Kognition von Zusammenhängen, Unterscheidung von Soundmustern, Beibehalten und Beurteilen von Rhythmen“ (vgl. Müllensiefen, 2017b, S. 130). Da die Studie von Stankov und Horn (1980) nicht ausschließlich musikalische Wahrnehmungsfähigkeiten betrachtet, sind die Ergebnisse nicht direkt auf die oben genannte Problemstellung übertragbar. Die vorliegende Arbeit beschränkt sich daher auf musikalische Fähigkeiten und untersucht zudem eine größere Stichprobe (N = 1786) als die von Stankov und Horn. Eine Studie von Kidd et al. (2007) verwendete ebenfalls den faktoranalytischen Ansatz und Modellvergleiche, betrachtet jedoch allgemeinere auditorische Fähigkeiten und arbeitete zudem nicht mit musikbezogenen Tests.
Im Rahmen der Langzeitstudie LongGold (https://longgold.org) zur Entwicklung musikalischer Fähigkeiten im Jugendalter werden musikalische Fähigkeiten in verschiedenen, unabhängig voneinander konstruierten Musikalitätstests zur Beat- und Intonationswahrnehmung sowie zur Melodie- und Emotionsunterscheidung untersucht. Auf dieser Datengrundlage soll in der hier vorgestellten Studie die Frage beantwortet werden, ob das Konzept der Einteilung musikalischer Verarbeitungsprozesse in mehrere Module wie bei Peretz und Coltheart (2003) auch auf musikalische Fähigkeiten im Jugendalter übertragbar ist. Die Herangehensweise ist hierbei „durch die Intelligenzforschung inspiriert” (Gembris et al., 1997, Sp. 869), da diese bereits ähnliche Überlegungen über die Struktur allgemeiner kognitiver Fähigkeiten und entsprechende Strukturmodelle lieferte, obgleich nach wie vor Uneinigkeit darüber herrscht, ob Intelligenz als einzelne Fähigkeit oder als Repertoire mehrerer heterogener, unabhängiger und unkorrelierter Fähigkeiten zu konzeptualisieren sei (Myers, 2014, S. 400; Neyer & Asendorpf, 2018, S. 154).
Eines der Strukturmodelle ist Gardners (2006) Modell der multiplen Intelligenzen, in dem mehrere Formen von Intelligenz unterschieden werden. Spearman (1904b), Jensen (1989) und Mackintosh (2011) hingegen gehen von einem Generalfaktor der Intelligenz aus, mit dem alle anderen Subfaktoren verbunden sind. Spearmans einfaches Faktormodell wurde über die letzten Jahrzehnte zu hierarchischen Modellen mit mehreren Ebenen ausdifferenziert: zum Beispiel zusammengefasst in der Cattell-Horn-Carroll-Theorie der kognitiven Fähigkeiten (CHC-Theorie; McGrew, 2005). Dabei wird weiterhin der g-Faktor als grundlegende mentale Fähigkeit angenommen. Musikalische Fähigkeiten werden in der CHC-Theorie unter der breiten Domäne Auditory processing eingeordnet. Dort werden Musical Discrimination and Judgment und Maintaining and Judging Rhythm als spezifische Fähigkeiten unterschieden. Die Frage, die in unserer Studie beantwortet werden soll, ist, ob diese spezifisch musikalischen Fähigkeiten auch wieder eine hierarchische Struktur aufweisen oder eher unverbunden sind.
Ziel der Studie
Durch eine Faktorenanalyse sollen im ersten Teil dieser Arbeit folgende Leitfragen beantwortet werden: Existiert nur ein einziger allgemeiner Musikalitätsfaktor analog zu Spearmans (1904b) Generalfaktor der Intelligenz, der den Zusammenhang zwischen verschiedenen Musikalitätstests erklären könnte, oder sind sie hingegen – vergleichbar zu Gardners (2006) Konzept der multiplen Intelligenzen – als multiple Musikalitätsfaktoren unverbunden und liegen damit mehrere unabhängige Formen musikalischer Fähigkeiten vor? Ist eines der konkurrierenden Modelle von Gardner und Spearman auf die Struktur musikalischer Fähigkeiten übertragbar?
Da für viele wichtige Musiktests, wie zum Beispiel denen von Seashore (1919a, S. 11) und Gordon (2004, S. 24), Normen existieren, jedoch noch nicht für die in der LongGold-Studie eingesetzten Musiktests, ist ein weiteres Ziel, abhängig von Alter, Geschlecht und Ausmaß musikalischer Ausbildung für jeden Test Normwerte aus den empirischen Daten zu erstellen.
Das LongGold-Projekt
Die empirischen Daten, die die Grundlage dieser Arbeit bilden, wurden im Rahmen des Forschungsprojekts LongGold erhoben (https://longgold.org). LongGold ist eine Langzeitstudie, die musikalische Hörfähigkeiten und nicht-verbale Intelligenz in adaptiven Tests, Persönlichkeit durch das Big-Five-Persönlichkeitsinventar sowie Einstellungen, Selbstkonzept, mentales Wohlbefinden, soziale Fähigkeiten, musikalische und nicht-musikalische Freizeitaktivitäten und demographische Variablen erfasst (Müllensiefen & Elvers, 2018). Ziel des Projekts ist es zu verstehen, wie sich musikalische Fähigkeiten im Alter zwischen zehn und 20 Jahren in Zusammenhang mit Intelligenz, sozialen Kompetenzen und Persönlichkeit entwickeln, und ob Transfereffekte zwischen diesen Bereichen oder Folgeeffekte musikalischer Betätigung auf Schulleistung existieren (Müllensiefen & Elvers, 2018). Darüber hinaus sollen Faktoren identifiziert werden, welche die musikalische Entwicklung beeinflussen, fördern oder verursachen können (Müllensiefen & Elvers, 2018; Müllensiefen, 2017a). Die Durchführung der Studie an Schulen wurde von den Ethikkommissionen der Leibniz Universität Hannover und des Goldsmiths College der University of London sowie den Kultusministerien von Baden-Württemberg und Hessen genehmigt.
Methode
Vorgehensweise
In dieser Studie wird das am besten passende Strukturmodell für musikalische Fähigkeiten anhand einer Stichprobe aus 622 britischen Jugendlichen identifiziert. Anschließend wird geprüft, ob dieses Modell seine Gültigkeit für eine größere Stichprobe aus 1164 Kindern der 5. und 6. Klassen mehrerer Schulen in Deutschland behält.
Stichprobe
Im Rahmen der Langzeitstudie LongGold wurden im Schuljahr 2018/19 in Großbritannien 622 und in Deutschland 1168 Jugendliche bezüglich ihrer musikalischen Fähigkeiten untersucht. Vier Schüler*innen aus Deutschland wurden wegen einer auditiven Wahrnehmungsstörung (n = 1) und dem Tragen von Hörgeräten (n = 3) aus der endgültigen Gesamtstichprobe ausgeschlossen, sodass die verbleibende Gruppe N = 1786 Kinder und Jugendliche umfasste. Sie waren zwischen acht und 18 Jahre alt (M = 11,78, SD = 1,68; GB: M = 13,47, SD = 1,63; DE: M = 10,87, SD = 0,78). Da eine der untersuchten, britischen Schulen eine reine Mädchenschule war, bestand die britische Stichprobe zum Großteil aus Mädchen (72,03% weiblich, 24,44% männlich sowie 3,54% andere oder „möchte ich nicht sagen”). In der Stichprobe aus Deutschland waren 48,11% Mädchen und 46,48% Jungen (5,41% andere oder „möchte ich nicht sagen”). Insgesamt folgt daraus ein Gesamtanteil von 56,44% Mädchen und 38,80% Jungen (4,76% andere oder „möchte ich nicht sagen“). In Großbritannien wurden die Daten an verschiedenen privaten weiterführenden Schulen und in Deutschland an verschiedenen staatlichen weiterführenden Schulen (Gymnasien, Gesamtschulen und eine Realschule) erhoben. An den britischen Schulen wurde der sozioökonomische Status in Anlehnung an Rose (2005) sowie Rose und Pevalin (2001) durch den Bildungsgrad der Eltern und die berufliche Tätigkeit des*der Haupteinkommensbezieher*in der Familie erfasst. Der Großteil der Eltern hatte als höchsten Bildungsabschluss einen (Fach-)Hochschulabschluss oder die (Fach-)Hochschulreife und arbeitete in Führungs-, Verwaltungs- und Fachberufen. In Großbritannien gaben die meisten Schüler*innen als Muttersprache Englisch (89,07%), Chinesisch (3,86%) oder Russisch (1,45%) an. In ihrer Freizeit oder in der Familie sprachen 13,83% eine weitere Sprache (außer Englisch). Als Staatsbürgerschaft wurden britisch (85,69%), chinesisch (3,86%) oder russisch (1,61%) genannt. In Deutschland wurde der sozioökonomische Status nicht erhoben. Hier war die Nationalität der Schüler*innen größtenteils deutsch (93,13%), gefolgt von türkisch (0,86%). Neben Deutsch (75,77%) waren die häufigsten Muttersprachen Türkisch (4,38%), Russisch (3,95%), Arabisch (1,89%), Polnisch (1,72%) und Serbisch (1,20%). Mehr als ein Viertel (27,66%) sprach außerhalb der Schule eine weitere Sprache neben Deutsch.
Die verwendeten Tests
Den in dieser Studie verwendeten Musiktests liegt die Annahme zugrunde, dass musikalische Fähigkeiten durch das Abschneiden in den Aufgaben, welche die verschiedenen Aspekte der Musikwahrnehmung testen, messbar sind. Musikalität als latente Variable bzw. Konstrukt ist nicht direkt beobachtbar und wird daher durch die Leistungen in den vier performativen Musiktests operationalisiert (vgl. Werner et al., 2016, S. 949). Alle Tests basieren messtheoretisch auf der Item-Response-Theorie (IRT), die mit Ausnahme des Emotionsunterscheidungstests deren adaptive Verwendung ermöglicht. Das bedeutet, dass für jede Versuchsperson während der Testung ein eigenes Itemset dynamisch ausgewählt wird und sich die Schwierigkeit der Items somit individuell nach der Fähigkeit jeder einzelnen Person richtet (Frey, 2012, S. 275). Die Tests nutzen außerdem realistische und damit ökologisch valide Stimuli aus dem den Schüler*innen vertrauten Rock-Pop-Bereich (Müllensiefen & Hemming, 2018, S. 113). Für die Lösung der Testaufgaben werden nicht zwingend Fähigkeiten benötigt, die „an das Erlernen eines Instruments oder an formalen Musikunterricht gekoppelt sind” (Müllensiefen & Hemming, 2018, S. 93). Alle Hörtests – bis auf den Emotionsunterscheidungstest – beinhalteten Beispiele und eine Trainingsphase. Tabelle A1 im Anhang gibt einen Überblick über die vier verschiedenen Tests, deren Reliabilitätswerte, die Größe der Stichprobe dieser Studie und Referenzen zur Kalibrierungsstudie.
Beat-Wahrnehmungstest (BAT)
Der Computerised Adaptive Beat Alignment Test (CA-BAT, kurz BAT) bewertet die Fähigkeit einer Person, den Grundschlag bzw. Beat in einem kurzen Musikausschnitt wahrzunehmen und danach zu beurteilen, ob dieser mit einem gleichzeitig erklingenden Metronom übereinstimmt. Beat-Wahrnehmung bezeichnet hierbei den Prozess, einen zugrunde liegenden Puls oder Grundschlag aus einem Musikausschnitt abzuleiten (Harrison & Müllensiefen, 2018, S. 1; Patel & Iversen, 2014, S. 2). In einer 2AFC-Aufgabe (Two-Alternative-Forced-Choice-Aufgabe) müssen die Versuchspersonen entscheiden, in welcher von zwei Versionen die Beep-Töne exakt mit dem Beat synchronisiert sind.
Emotionsunterscheidungstest (EDT)
Der Emotionsunterscheidungstest (engl. „Musical Emotion Discrimination Task”) bestimmt die Fähigkeit einer Person, den beabsichtigten emotionalen Ausdruck aus dargebotener Musik gemäß dem Production-Recognition-Paradigma zu erkennen (MacGregor & Müllensiefen, 2019). Dafür gibt die Person an, welcher von zwei Musikausschnitten eher eine bestimmte Emotion transportiert. Ein Item besteht hierbei aus zwei Versionen derselben Phrase, die sich nur in der intendierten Emotion unterscheiden. Die Aufgabe der Testpersonen ist es, in einem 2AFC-Format auszuwählen, welche der beiden Versionen eher mit einer der vier Zielemotionen übereinstimmt, also beispielsweise, welche Version einen fröhlicheren Ausdruck hat.
Melodieunterscheidungstest (MDT)
Der Melodieunterscheidungstest (engl. „Melodic Discrimination Test”) erfasst die Fähigkeit einer Person, Unterschiede in verschiedenen kurzen Melodien zu erkennen (Harrison et al., 2017, S. 2), indem getestet wird, wie gut Veränderungen in einem Ton bei einer von insgesamt drei transponierten Versionen derselben Melodien identifiziert werden können (Harrison et al., 2017).
Intonationswahrnehmungstest (MPT)
Der Intonationswahrnehmungstest (engl. „Mistuning Perception Test”) misst die Fähigkeit, unterscheiden zu können, ob eine Gesangsstimme zu hoch oder zu tief im Verhältnis zur Hintergrundmusik intoniert ist. In einer 2AFC-Aufgabe muss entschieden werden, welche von zwei Versionen desselben Musikausschnitts falsch, also „verstimmt“ klingt (Larrouy-Maestri et al., 2019).
Goldsmiths Musical Sophistication Index (Gold-MSI)
Der Goldsmiths Musical Sophistication Index ist ein Selbstauskunftsfragebogen für Nicht-Musiker*innen, der musikalische Erfahrenheit nicht nur im Sinne musikalischer Expertise durch Instrumentalspiel und -unterricht misst, sondern auch als Folge weiterer allgemeiner, aktiver Auseinandersetzung und Umgangsweisen mit Musik in all ihren Facetten (Schaal et al., 2014, S. 423; Müllensiefen et al., 2014, S. 1). Das psychometrische Konstrukt des Gold-MSI gliedert sich in einen globalen Faktor (GMSI) und die fünf Faktoren F1 Aktiver Umgang mit Musik, F2 Musikalische Wahrnehmungsfähigkeiten, F3 Musikalische Ausbildung, F4 Emotionen und F5 Gesangsfähigkeiten (Müllensiefen et al., 2014; Müllensiefen & Hemming, 2018, S. 98; Übersetzungen aus Schaal et al., 2014).
Intelligenztest (MIQ)
Der Intelligenztest MIQ (engl.: „Matrix Reasoning IQ Test“; Chan & Kosinski, 2015) ist ein nonverbaler, computergestützter, adaptiver Test, der fluide Intelligenz, nonverbales Schlussfolgern und abstrakte Problemlösungsfähigkeit in neuen Situationen misst (Müllensiefen et al., 2015, S. 4). Ziel ist es, die deduktive Fähigkeit – aus etwas Abstraktem einen Sinn abzuleiten – zu erfassen (Raven, 2008, S. 22). Er basiert auf Ravens progressiven Matrizen (Raven, 2008; Chan & Kosinski, 2015). Die Items des MIQ zeigen eine Grafik, in der in einer 3×3-Matrix acht Elemente aus abstrakten einfachen Mustern dargestellt sind. Das neunte Element fehlt. Die Aufgabe besteht darin, aus acht möglichen anderen Mustern jenes auszuwählen, das die Matrix vervollständigt (Raven, 2008, S. 18; Müllensiefen et al., 2015, S. 4). In der LongGold-Studie wurden acht Matrizen (Items) benutzt.
Strukturmodelle
Im Folgenden werden mögliche Strukturmodelle, die für die Beschreibung der Struktur musikalischer Fähigkeiten in Frage kommen und sich in der Anzahl der Faktoren unterscheiden, beschrieben. Die Ergebnisse der vier Musikalitätstests bilden hierbei die vier manifesten Variablen. Analog zu Spearmans (1904b) Generalfaktormodell der Intelligenz und dem Generalfaktormodell der Musikalität, so wie es Wing (1961) seinem Musiktest zugrunde legte, ergibt sich als erstes potenzielles Modell, das 1×4-Modell, das schematisch in Abbildung 1 dargestellt ist. Es enthält einen Musikalitätsfaktor, der die vier verbundenen manifesten Variablen – gemessen durch die vier Musikalitätstests – beeinflusst. Mit zwei Freiheitsgraden ist es überidentifiziert. Seashore (1919b) hingegen favorisierte eine multifaktorielle Theorie mit mehreren voneinander unabhängigen musikalischen Fähigkeiten. Davon und von Gardners (2006) Konzept der multiplen Intelligenzen sind die Modelle 2a und 2b abgeleitet (siehe Abbildung 2): In diesen 4×1-Modellen bilden die vier Musikalitätstests vier einzelne Faktoren. In Modell 2a werden diese vier Faktoren als statistisch abhängig angenommen. Modell 2a und 1 sind hierarchisch geschachtelt. Weil in Modell 2a mit abhängigen Faktoren die Anzahl der zu schätzenden Parameter genauso groß ist wie die Anzahl der empirischen Informationen (df = 0), ist es genau identifiziert (Werner et al., 2016, S. 964). Betrachtet man ein 4×1-Modellen mit statistisch unabhängigen Faktoren, erhält man das überidentifizierte Modell 2b.
Abbildung 1
Abbildung 2
Insgesamt gibt es weitere sieben theoretisch denkbare Modelle von Musikalität mit zwei latenten Faktoren und einer unterschiedlichen Verteilung der manifesten Variablen auf diese Faktoren (2 + 2 oder 3 + 1). Rein kombinatorisch wären noch weitere sechs Modelle mit insgesamt drei Faktoren (jeweils zwei Faktoren mit einem Indikator und ein Faktor mit zwei Indikatoren) denkbar. Diese werden jedoch nicht berücksichtigt, weil sie unteridentifiziert sind. Das rührt daher, dass es mehr zu schätzende Parameter (in diesem Fall elf: ein Pfadkoeffizient, vier Messfehlervarianzen sowie die drei Varianzen und drei Kovarianzen der drei latenten Variablen) als nicht-redundante Informationen aus den Daten (in diesem Fall zehn: vier Varianzen und sechs Kovarianzen) gibt. Da die Intelligenzmodelle von Spearman (1904b) und Gardner (2006) sowie Wings (1961) und Seashores (1919b) Konstruktionen für Musikalitätstests ein einfaktorielles oder ein Modell mit vier Faktoren implizieren, bleiben diese weiteren Modelle hier unberücksichtigt und nur das 1×4-Modell und die 4×1-Modelle werden in Hinblick auf ihre Passung zu den Daten evaluiert.
In der Vergangenheit wurden musikalische Fähigkeiten oft durch Aufgaben gemessen, in denen Melodien voneinander unterschieden oder memoriert werden sollten (z. B. Michaelis, 1805, und Gordon, 1989). Daher misst der MDT im Vergleich zum BAT, EDT und MPT am ehesten das, was traditionellerweise in Musikalitätstests gemessen und unter dem Konstrukt Musikalität verstanden wurde. Aus diesem Grund wird bei allen Modellen die Testleistung des MDTs auf die erste manifeste Variable gesetzt (Werner et al., 2016, S. 955), die die Einheit der latenten Variable vorgibt und in Abbildung 1 mit einer gestrichelten Linie erscheint.
Ergebnisse
Deskriptive Statistiken der Musikalitätstests
Tabelle 1 gibt die deskriptiven Statistiken der verwendeten Leistungstests sowie der Schulnoten und der selbst eingeschätzten musikalischen Expertise anhand des Gold-MSI wieder.
Tabelle 1
Variable | n | Fehlend | M | SD | Minimum | Maximum |
---|---|---|---|---|---|---|
Beat-Wahrnehmungstest | 1786 | 0 | −1,23 | 1,31 | −4,00 | 2,15 |
Emotionsunterscheidungstest | 699 | 1087 | 0,78 | 0,15 | 0,28 | 1,00 |
Melodieunterscheidungstest | 1750 | 36 | −1,23 | 1,14 | −3,80 | 2,71 |
Intonationswahrnehmungstest | 1786 | 0 | −0,43 | 1,18 | −4,00 | 2,66 |
Intelligenztest | 1786 | 0 | −1,74 | 1,08 | −4,00 | 1,71 |
Schulnoten (in %) | 1413 | 373 | 68,58 | 13,89 | 21,03 | 100,00 |
Allg. Musikal. Erfahrenheit (GMSI) | 1694 | 92 | 3,81 | 0,87 | 1,00 | 6,72 |
F1 Aktiver Umgang mit Musik | 1694 | 92 | 3,55 | 0,98 | 1,00 | 6,89 |
F2 Musikalische Wahrnehmungsfähigkeiten | 1694 | 92 | 4,57 | 0,84 | 1,11 | 7,00 |
F3 Musikalische Ausbildung | 1694 | 92 | 3,18 | 1,20 | 1,00 | 6,43 |
F4 Emotionen | 1694 | 92 | 4,35 | 0,97 | 1,00 | 7,00 |
F5 Gesangsfähigkeiten | 1694 | 92 | 4,22 | 1,03 | 1,00 | 7,00 |
Anmerkung. Da bei der Auswertung der Ergebnisse des BATs, MDTs, MPTs und MIQs die Item-Response-Theorie zum Tragen kam, liegen die Ergebnisse zwischen −4 und +4. Sie entsprechen dem geschätzten Personenparameter. Die Schulnoten sind auf Prozentwerte standardisiert. Die Items des Faktors Musikalische Ausbildung des Gold-MSI wurden auf einer Zustimmungsskala von 1 = „stimme ganz und gar nicht zu” bis 7 = „stimme voll und ganz zu” erhoben und gemittelt.
Korrelationen zwischen den Tests
In der Interkorrelationsmatrix in Tabelle 2 lässt sich ablesen, wie stark je zwei der vier untersuchten Variablen miteinander korrelieren (unkorrigierte und korrigierte Pearson-Korrelationen unter- und oberhalb der Diagonale) und, wie reliabel die einzelnen Tests sind (Diagonale). Die Korrelationskoeffizienten zwischen den vier Variablen reichen von r = ,34 (Korrelation zwischen Beat-Wahrnehmungstest und Intonationswahrnehmungstest) bis r = ,42 (Melodieunterscheidungstest und Emotionsunterscheidungstest). Gemäß Ellis' (2010, S. 41) Benchmarks sprechen diese Ergebnisse für eine mittlere bis hohe Korrelation. Die anhand der Reliabilitäten der Kalibrierungsstudien korrigierten Korrelationen liegen zwischen r = ,51 und r = ,65. Watson (2017, S. 232) zufolge wird eine Interkorrelationsmatrix als für eine Faktorisierung geeignet erachtet, wenn die Mehrheit der Korrelationskoeffizienten zwischen ,20 und ,80 liegen. Dies ist der Fall.
Tabelle 2
Test | 1 | 2 | 3 | 4 |
---|---|---|---|---|
1. Emotionsunterscheidungstest (EDT) | Rel. = ,690 | ,585 | ,646 | ,558 |
2. Melodieunterscheidungstest (MDT) | ,422 | Rel. = ,754 | ,536 | ,510 |
3. Intonationswahrnehmungstest (MPT) | ,414 | ,359 | Rel. = ,595 | ,564 |
4. Beat-Wahrnehmungstest (BAT) | ,362 | ,346 | ,340 | Rel. = ,610 |
Anmerkung. Unterhalb der Diagonalen stehen die Pearson-Korrelationen – berechnet aus je einem kompletten Wertepaar – zwischen den vier Testscores, die mit p < ,001 signifikant sind. Auf der Diagonalen stehen die Reliabilitäten (Rel.) der einzelnen Tests. Oberhalb der Diagonalen stehen die anhand der Reliabilitäten der Kalibrierungsstudien (Referenz zu den Studien siehe letzte Spalte in Tabelle A1) korrigierten Korrelationen (Minderungskorrektur; Spearman, 1904a, S. 90).
Modellierung der latenten Variablenmodelle
Die Hypothesen aus der Literatur über ein einfaktorielles Modell oder ein Modell mit vier unverbundenen Faktoren motivieren einen Modellvergleich zwischen dem 1×4-Modell und den 4×1-Modellen. Weil gegebenenfalls Unterschiede bestehen könnten, erfolgt der Vergleich getrennt für beide Länder. Daher sei zunächst ausschließlich die Stichprobe aus Großbritannien betrachtet. Eine explorative Faktorenanalyse der Daten der britischen Stichprobe legt Modell 1 nahe (Ergebnisse siehe Anhang). Die folgende Betrachtung untersucht Modell 1, Modell 2a und 2b in einer konfirmatorischen Faktorenanalyse auf Grundlage der Daten der britischen Stichprobe mit n = 622 für die vier Musikalitätstests BAT, EDT, MDT und MPT mit Full-Information-Maximum-Likelihood-Verfahren (Beaujean, 2014, S. 119 und Rosseel, 2012, S. 30) und robuster Maximum-Likelihood-Schätzmethode (Werner, 2015, S. 9) und überprüft das Ergebnis der explorativen Faktorenanalyse. Die latenten Variablen wurden standardisiert.
Ein Chi-Quadrat-Test untersucht „globale […] Abweichungen zwischen Modell und Daten“ (Werner et al., 2016, S. 957) und beurteilt damit deren Passung. Das Ergebnis des Chi-Quadrat-Tests für das 1×4-Modell mit einem Musikalitätsfaktor und vier verbundenen manifesten Variablen (Modell 1) ist nicht signifikant (siehe Tabelle 3 zweite und dritte Spalte, p = ,391). Das bedeutet, dass die Nullhypothese beibehalten wird (Werner et al., 2016, S. 967), die Annahmen des Modells richtig sind (vgl. Werner et al., 2016, S. 958) und Modell 1 und Daten nicht signifikant voneinander abweichen (Werner et al., 2016, S. 959). Alle weiteren Gütekriterien (RMSEA, SRMR, GFI und CFI) befinden sich innerhalb der jeweils passenden Wertebereiche der Schwellenwerte (siehe Tabelle 3 letzte Zeile). Zusammen deutet dies auf einen sehr guten Modellfit für das 1×4-Modell hin.
Tabelle 3
Modell |
|
RMSEA
|
SRMR | BIC | ||||
---|---|---|---|---|---|---|---|---|
Wert | 90% CI
|
|||||||
Wert | p | df | LL | UL | ||||
GB (n = 622) | ||||||||
1 (1×4) | 1,9 | ,391 | 2 | ,000 | ,000 | ,079 | 0,01 | 4552 |
2a (4×1; abhängig) | — | — | 0 | — | — | — | — | 4563 |
2b (4×1; unabhängig) | 309,7 | < ,001 | 6 | ,296 | ,268 | ,324 | 0,23 | 4857 |
DE (n = 1164) | ||||||||
1 (1×4) | 0,4 | ,824 | 2 | ,000 | ,000 | ,036 | 0,01 | 10881 |
GB & DE (n = 1786) | ||||||||
1 (1×4) | 0,6 | ,725 | 2 | ,000 | ,000 | ,036 | 0,01 | 15777 |
Schwellenwerte | ||||||||
5,99 (df = 2) bzw. 12,59 (df = 6) | > ,05 | — | ≤ ,06 | — | — | ≤ 0,08 | — |
Anmerkung. = Model Fit Test Statistic; SRMR = Standardized Root Mean Square Residual; BIC = Bayes'sches Informationskriterium. Goodness-of-Fit-Index und Comparative-Fit-Index von Modell 1 sind für alle Stichproben 1,000, für Modell 2a beide 1,00 und für Modell 2b 0,98 und 0,00, wobei der Schwellenwert bei ≥ 0,95 liegt (GFI: Shevlin und Miles, 1998; CFI: Hu und Bentler, 1999). In der letzten Zeile sind die üblichen Schwellenwerte für gute Modellpassung angegeben (Hu und Bentler, 1999).
Da Modell 2a keine Freiheitsgrade hat (df = 0), kann kein Chi-Quadrat-Test durchgeführt werden. Stattdessen wird als Nächstes durch einen -Differenztest die Frage geklärt, ob Modell 1 oder 2a besser zu den Daten passt. Ein Vergleich ist hier möglich, weil Modell 1 und 2a geschachtelt sind. Modell 1 wird gegen das Referenzmodell Modell 2a getestet. Das Ergebnis ist in Tabelle 3 (fünfte Zeile) abzulesen und zeigt, dass der Unterschied zwischen Modell 1 und 2a ( = 1,9) nicht signifikant ist (p = ,391). Das bedeutet, dass Modell 1 keinen signifikant schlechteren Chi-Quadrat-Wert hat als das komplexere, abhängige 4×1-Modell. Da es gleichzeitig einen besseren BIC (Bayes'sches Informationskriterium) hat und weniger komplex ist als Modell 2a, wird das einfaktorielle Modell 1 dem multifaktoriellen Modell mit vier abhängigen Faktoren (Modell 2a) vorgezogen.
Im Folgenden wird Modell 2b bestehend aus vier unabhängigen Faktoren mit jeweils einer Indikatorvariable untersucht. Hier ist der Chi-Quadrat-Test signifikant, was auf eine Abweichung zwischen Modell und Daten schließen lässt (vgl. Werner et al., 2016, S. 958). Die restlichen Gütekriterien mit Ausnahme des Goodness-of-Fit-Index liegen jenseits der empfohlenen Bereiche. Das Bayes'sches Informationskriterium (BIC) ist für das einfaktorielle Modell 1 kleiner als für die multifaktoriellen Modelle (siehe Tabelle 3 letzte Spalte). Aus diesen Gründen und der Tatsache, dass die Leistungen in den Musikalitätstests mäßig bis stark miteinander korrelieren, können die 4×1-Modelle und die Möglichkeit, dass die Testleistungen als vier Faktoren unverbunden sind, ausgeschlossen werden.
Angesichts der Gütekriterien kann davon ausgegangen werden, dass Modell 1 korrekt spezifiziert ist und damit die Ergebnisse der Parameterschätzung sinnvoll inhaltlich interpretiert werden können (vgl. Werner et al., 2016, S. 958): Diese zeigen standardisierte Ladungen zwischen 0,55 und 0,64 und liegen somit in einem Bereich, der in der Literatur generell akzeptiert wird (vgl. hierzu die Faktorladungen bei Wing, 1941, Tabelle 2, S. 34 und bei Carroll, 1993, Tabellen 9.5 und 9.6). Die Variablen MDT und MPT haben die höchsten Ladungen (,64 und ,61). Das heißt, dass sie am stärksten mit dem Konstrukt Musikalität zusammenhängen und es am besten abbilden (vgl. Werner et al., 2016, S. 951). Die Kommunalitäten der Faktorladungen sind niedrig (,30 bis ,41) bzw. die Uniqueness (standardisierte Messfehlervarianzanteile der einzelnen Tests) hoch (,59 bis ,70), was bedeutet, dass das latente Konstrukt Musikalität die Zusammenhänge zwischen den vier Musikalitätstests nicht vollständig erklärt. Da die beiden 4×1-Modelle verworfen wurden und das 1×4-Modell mit einem Faktor (siehe Abbildung 3) einen guten Modellfit hat, wird es im Anschluss favorisiert.
Abbildung 3
Insgesamt kann die Schlussfolgerung gezogen werden, dass eine Operationalisierung des Konstrukts Musikalität durch nur einen Generalfaktor – bestehend aus den Leistungen der vier Tests BAT, EDT, MDT und MPT – möglich ist und das Konstrukt Musikalität als latente Variable des einfaktoriellen Strukturgleichungsmodells aufgefasst werden kann. Das Generalfaktormodell passt gut auf die Daten, wobei der Generalfaktor die Zusammenhänge zwischen den vier Musikalitätstests nicht vollständig erklärt. Dies kommt daher, dass alle Tests verschiedene Aspekte musikalischer Wahrnehmungsfähigkeiten messen. Die Residualvarianzen der einzelnen Tests sind demnach unter anderem auf deren spezielle Zielkonstrukte zurückzuführen.
Übertragung auf die Stichprobe aus Deutschland
Im nächsten Schritt wird überprüft, ob das gefundene Ergebnis der Generalfaktorhypothese auf die in Deutschland erhobene Stichprobe übertragen werden kann und ob damit eine Generalisierung möglich ist. Eine konfirmatorische Faktorenanalyse überprüft, ob die Korrelationen zwischen den Ergebnissen der vier Musikalitätstests aus dem Einfluss eines zugrunde liegenden Generalfaktors resultieren wie im Falle der britischen Stichprobe. Dafür wird analog zur vorherigen Analyse Modell 1 (ein Faktor mit den vier Indikatorvariablen BAT, EDT, MDT und MPT) analysiert.
In Tabelle 3 (neunte Zeile) sind die Güte- bzw. Informationskriterien der Modellierung des latenten Variablenmodells anhand der deutschsprachigen Stichprobe berichtet. Die Tabelle zeigt, dass Modell 1 gut zu den Daten passt, da der Chi-Quadrat-Test nicht signifikant ist und alle anderen Gütekriterien (RMSEA, SRMR, GFI und CFI) ober- oder unterhalb des jeweiligen Schwellenwerts liegen. Die standardisierten Ladungen der Indikatorvariablen auf dem Generalfaktor g liegen zwischen ,49 und ,56. Die Variablen EDT und MDT sind am engsten mit der latenten Variable g verknüpft und zeigten auch in der britischen Stichprobe den stärksten Zusammenhang mit g. Die Residualvarianzen der einzelnen Tests sind relativ hoch (zwischen ,68 und ,76), was auf Messfehlereinflüsse schließen lässt. Die Kommunalitäten der manifesten Variablen – also der Anteil ihrer Varianz, der durch die latenten Variablen des Modells erklärt wird – sind teilweise niedriger als in der vorherigen Analyse. Das bedeutet, dass das latente Konstrukt Musikalität die Varianzen der Indikatorvariablen nicht vollständig erklärt und der Einfluss des gefundenen Generalfaktors nicht alle Zusammenhänge zwischen den vier Musikalitätstests vollständig begründen kann.
Der musikalische Generalfaktor
Aus den bisherigen Ergebnissen dieser Studie geht folgende Überlegung hervor: Bei Annahme eines Zusammenhangs zwischen den Leistungen in den unterschiedlichen Tests ist dieser durch den Einfluss eines und nicht mehrerer zugrunde liegender Faktoren begründet. Damit sprechen die Ergebnisse der Analysen beider Stichproben für die Generalfaktorhypothese.
Bildung des Generalfaktors
Der im ersten und zweiten Teil der Studie identifizierte Generalfaktor – bestehend aus den vier Variablen BAT, EDT, MDT sowie MPT – diente anschließend als neue Variable für weitere Analysen. Daher wurde eine dritte konfirmatorische Faktorenanalyse eines einfaktoriellen, latenten Variablenmodells (entsprechend Modell 1, siehe Abbildung 1) auf Grundlage der deutschen und britischen Stichprobe durchgeführt und die Faktorwerte der latenten Variable g als neue Variable GF durch die Regressionsmethode extrahiert. Dank der Verwendung des Full-Information-Maximum-Likelihood-Verfahrens war dies auch für Fälle mit fehlenden Werten möglich. Die Güte- und Informationskriterien der Modellierung stehen in Tabelle 3 (elfte Zeile) und sprechen für eine gute Modellpassung. Die Ergebnisse der Parameterschätzung für das Generalfaktormodell sind in Abbildung 4 abgedruckt. Die standardisierten Ladungen der vier Indikatorvariablen liegen im Bereich zwischen, 56 und, 66, der in der Literatur generell akzeptiert wird (vgl. hierzu die Faktorladungen bei Wing, 1941, Tabelle 2, S. 347 und bei Carroll, 1993, Tabellen 9.5 und 9.6). Die höchste Ladung hat die Variable EDT mit ,66. Das entspricht dem Ergebnis der Faktorenanalyse der deutschen Stichprobe, in der die Variable EDT ebenfalls die höchste Ladung (,56) hatte.
Abbildung 4
Die Werte der Kommunalität bewegen sich zwischen ,32 und ,44 und sind damit höher als in den vorherigen Faktorenanalysen. Das bedeutet, dass durch die latente Variable g, also durch den Generalfaktor, insgesamt teilweise mehr Varianz der manifesten Variablen erklärt werden konnte als in den separaten Faktorenanalysen der britischen und der deutschen Stichproben. Trotzdem liegt der Anteil an durch g unerklärter Varianz bei allen Indikatorvariablen über 50%. Die geschätzten Faktorwerte der latenten Variable g, die als Generalfaktor aufgefasst wird, haben den Mittelwert 0, da sie standardisiert sind (SD = 0,558). Die Faktorwerte liegen zwischen −1,706 und 1,527. Die Verteilung der Variable GF weicht von einer Normalverteilung ab (vgl. Abbildung 5 und Shapiro-Wilk-Test: W = 0,99, p < ,001).
Abbildung 5
Als Nächstes kann nun der Zusammenhang zwischen dem ebenfalls für die Gesamtstichprobe identifizierten Generalfaktor und anderen interessierenden Merkmalen untersucht werden und es können Normen für die Musikalitätstests generiert werden.
Korrelation des Generalfaktors mit anderen Variablen
Tabelle 4 informiert über die Korrelationen zwischen dem Generalfaktor, der Leistung im Intelligenztest MIQ, den Schulnoten, dem Globalfaktor der Allgemeinen Musikalischen Erfahrenheit des Gold-MSI (GMSI; Müllensiefen et al., 2014), den Faktoren Aktiver Umgang mit Musik, Musikalische Wahrnehmungsfähigkeiten, Musikalische Ausbildung, Emotionen und Gesangsfähigkeiten des Gold-MSI.
Tabelle 4
Tests und Faktoren | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
1. Generalfaktor | — | |||||||
2. Intelligenztest MIQ | ,396* | — | ||||||
3. Schulnoten | ,168* | ,150* | — | |||||
4. Allg. Musikal. Erfahrenheit (GMSI) | ,286* | ,059* | ,127* | — | ||||
5. F1 Aktiver Umgang mit Musik | ,202* | ,037 | ,025 | ,769* | — | |||
6. F2 Musikalische Wahrnehmungsfähigkeiten | ,323* | ,111* | ,162* | ,676* | ,478* | — | ||
7. F3 Musikalische Ausbildung | ,291* | ,087* | ,139* | ,757* | ,488* | ,432* | — | |
8. F4 Emotionen | ,296* | ,129* | ,096* | ,579* | ,585* | ,515* | ,344* | — |
9. F5 Gesangsfähigkeiten | ,190* | ,007 | ,081* | ,804* | ,565* | ,589* | ,397* | ,456* |
Anmerkung. 1330 ≤ df ≤ 1780.
*p < ,05.
Der extrahierte Generalfaktor korreliert mäßig mit der Teilskala Musikalische Wahrnehmungsfähigkeiten (r = ,32, p < ,001; vgl. Müllensiefen et al., 2014). Dies spiegelt die Tatsache wider, dass alle hier verwendeten Musikalitätstests Aspekte der Musikwahrnehmung untersuchen. Die mäßig starke Korrelation mit der Teilskala Emotionen des Gold-MSI (r = ,30, p < ,001) stützt das Ergebnis der Faktorenanalyse mit der deutschen und der gesamten Stichprobe, wonach die Ergebnisse des EDTs die latente Variable Musikalität g am besten abbilden. Außerdem korreliert der Generalfaktor GF mäßig stark mit dem Globalfaktor des Gold-MSI und dessen Teilskala Musikalische Ausbildung (beide r = ,29, p < ,001) sowie mäßig bis stark mit dem Intelligenztest MIQ (r = ,40, p < ,001).
Intelligenz und Musikalische Ausbildung (Faktor F3) korrelieren nur gering miteinander (r = ,09, p < ,001). Diese Korrelation verschwindet und ist nicht mehr signifikant, wenn man den Generalfaktor kontrolliert und die partielle Korrelation zwischen MIQ und F3 betrachtet (r(MIQ, F3 | GF) = −,03, n. s.). Dies bedeutet, dass entweder die musikalische Ausbildung die Musikalität beeinflusst und diese wiederum Einfluss auf die Intelligenz hat oder das umgekehrt die Intelligenz die Musikalität beeinflusst und diese dann wiederum Auswirkungen darauf hat, wie viel musikalische Ausbildung eine Person erhält. Wir wissen also nicht, ob hohe kognitive Fähigkeiten zu mehr musikalischer Ausbildung führen oder umgekehrt.
Normwerte der Referenzstichprobe für BAT, MDT und MPT
Die Normierung eines Tests dient der Erstellung eines objektiven „Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können” (Moosbrugger & Kelava, 2012, S. 19). Im vorliegenden Fall besteht die Zielpopulation aus Jugendlichen der Sekundarstufe I in Deutschland und Großbritannien, die einen ähnlichen sozioökonomischen Hintergrund wie die hier untersuchte und im Methodenteil beschriebene Stichprobe aufweisen.
Es wird angenommen, dass musikalische Entwicklung im Jugendalter – und damit die Entwicklung der getesteten Fähigkeiten – durch Alter, Geschlecht und musikalische Ausbildung beeinflusst wird (Hargreaves & Lamont, 2017; vgl. Abbildung 6). Um diese Vermutung empirisch zu untersuchen, wird musikalische Entwicklung durch das Modell einer nicht-parametrischen Regression beschrieben, wobei der jeweilige Testwert (z. B. BAT) die abhängige Variable und die Variablen Alter, Geschlecht und Musikalische Ausbildung (Faktor F3 des Gold-MSI) die unabhängigen Variablen bilden. Die Prüfung der Linearität zwischen den abhängigen Variablen und den unabhängigen Variablen Alter und Musikalische Ausbildung erfolgt graphisch in Lowess-Diagrammen (vgl. Abbildung 6). Da keine lineare Beziehung zwischen den Variablen herrscht, wird ein non-parametrisches Modell verwendet. Die Annahme des Modells ist hierbei, dass die Variable des jeweiligen Testscores abhängig von den Variablen Alter, Geschlecht und Musikalische Ausbildung ist. Dies wurde in einem Unabhängigkeitstest mit der Maximum-Statistik als Teststatistik untersucht (R-Paket coin, Funktion independence_test). Dessen Nullhypothese ist, dass zwei Gruppen von Variablen y1, …, yq und x1, …, xp, die auf beliebigen Skalen gemessen wurden, voneinander unabhängig sind (Hothorn et al., 2021, S. 25). Das Modell einer nicht-parametrischen Regression und ein Unabhängigkeitstest wurden einer multiplen linearen Regression oder einer Korrelation vorgezogen, da der Anstieg in der abhängigen Variable und in den Variablen Alter, Geschlecht und Musikalische Ausbildung nicht linear ist. Das Ergebnis zeigt, dass Unterschiede in allen unabhängigen Variablen zu Unterschieden in der abhängigen Variable (Testscores) führen (p < ,001). Man kann daher davon ausgehen, dass die Testleistungen in den Musikalitätstests tatsächlich mit dem Alter, dem Geschlecht und dem Ausmaß an musikalischer Ausbildung zusammenhängen. Aus diesem Grund wurden für alle Kombinationen der unabhängigen Variablen Alter, Geschlecht und Musikalische Ausbildung die Normen der Tests BAT, MDT und MPT entsprechend differenziert, wobei die ursprünglich metrische Variable Musikalische Ausbildung in eine ordinale Variable umgewandelt wurde.
Abbildung 6
Für die Auswahl der Referenzstichprobe des BATs, des MDTs und des MPTs wurden aus der deutschen und britischen Stichprobe (zusammen N = 1786) alle Fälle ausgeschlossen, die fehlende Werte für den Faktor Musikalische Ausbildung des Gold-MSI (n = 92) oder für die Variable Alter (n = 1) hatten oder die als Geschlecht nicht männlich oder weiblich angegeben hatten (n = 85), weil später Normen unter anderem nach Geschlechtern getrennt erstellt wurden. Diese zusätzlich nach Alter und musikalischer Ausbildung aufzuteilen, hätte sehr kleine Substichproben mit n < 50 ergeben. Die verbliebenen 1614 Fälle wurden als Nächstes in Subgruppen nach Geschlecht (weiblich und männlich) und Alter eingeteilt (z. B. alle zehnjährigen Mädchen; vgl. Tabelle A2). Daraufhin wurden alle Subgruppen ausgeschlossen, die kleiner als n = 50 waren. Dieser Grenzwert wurde gewählt, um sicherzustellen, dass eine Substichprobe aus mindestens zwei Schulklassen mit n ≈ 25 besteht, und um so einen Klassenbias zu vermeiden. Das Ergebnis war eine Referenzstichprobe aus n = 1443 Fällen unterteilt in neun Subgruppen (für die Einteilung der Subgruppen und deren Größen siehe Spalte eins bis drei in Tabelle A2). Waren diese Subgruppen größer oder gleich nSubgruppe = 100, wurden sie anschließend in mehrere Substichproben anhand der Variable Musikalische Ausbildung geteilt, sodass jede Substichprobe mindestens 50 Fälle umfasste. Im Folgenden wird durch die Begriffe „Subgruppe“ und „Substichprobe“ zwischen den nur nach Alter und Geschlecht (Subgruppe) und den zusätzlich nach Musikalischer Ausbildung eingeteilten Stichproben (Substichproben) unterschieden. Wenn die Subgruppe größer oder gleich n = 100 ist, bilden mehrere Substichproben eine Subgruppe. Zur Festlegung eines Kriteriums für die Einteilung in k ungefähr gleich große, endgültige Substichproben, wurden die Ergebnisse der Variable Musikalische Ausbildung in k Leistungsstufen bzw. Level sortiert und so Quantile gebildet. Die Variablen, für welche die Normen erstellt wurden, sind in den jeweiligen Substichproben nicht normalverteilt.
Die Normwerte sind entsprechend der Subgruppen in Tabelle A2 in Form von Mittelwerten und Standardabweichungen aufgelistet. Sie erlauben eine näherungsweise Einschätzung des Leistungsniveaus eines Jugendlichen in Abhängigkeit zu Alter, Geschlecht und musikalischer Ausbildung. Wenn beispielsweise ein zehnjähriger Junge auf der Teilskala Musikalische Ausbildung zwei Punkte (Level 1) und im BAT einen Testscore von −0,70 erreicht, bedeutet dies, dass er, dafür, dass er keinerlei musikalische Ausbildung genießt, eine überdurchschnittliche Beat-Wahrnehmungsfähigkeit im Vergleich zur Referenzgruppe besitzt. Denn für zehnjährige Jungen ohne musikalisches Training (Level 1) ist der Normmittelwert −1,82 (Standardabweichung = 1,08) und der Wert −0,70 somit mehr als eine Standardabweichung vom Mittelwert entfernt. Die Normen für den EDT werden in dieser Arbeit nicht berichtet, da der EDT zum Zeitpunkt der Datenauswertung weiterentwickelt wurde (MacGregor, Ruth & Müllensiefen, 2021), sodass damit zu rechnen ist, dass in Zukunft ein neuer (adaptiver) Emotionsunterscheidungstest mit neuen Normwerten verfügbar sein wird.
Diskussion
Das wesentliche Ziel der vorliegenden Untersuchung war, eine Antwort auf die Frage nach der Struktur von Musikfähigkeit zu finden. Der Stand der Forschung zu diesem Thema ist noch nicht zufriedenstellend, da es konkurrierende ein- und multifaktorielle Modelle (vgl. Wing, 1961, vs. Seashore, 1919b) gibt. Im ersten Teil dieser Studie wurden die Daten einer großen englischsprachigen Stichprobe für vier Musikalitätstests zur Beat- und Intonationswahrnehmung sowie zur Melodie- und Emotionsunterscheidung analysiert, deren Ergebnisse mäßig stark miteinander korrelieren. In Analogie zu ein- und multifaktoriellen Modellen der Intelligenz wurden mehrere Modelle aufgestellt, die diese Korrelation als Folge des Einflusses eines oder mehrerer dahinterliegender Faktoren und im Zuge dessen die Struktur musikalischer Fähigkeiten beschreiben. Aufgrund der Ergebnisse eines -Differenztests und eines Chi-Quadrat-Tests und der Korrelationen zwischen den Leistungen in den vier Musiktests kann ein multiples Konstrukt aus verbundenen und unverbundenen musikalischen Einzelfähigkeiten – wie von Seashore angenommen – abgelehnt werden. Vielmehr spricht die Struktur der Korrelationen für ein Generalfaktormodell, welches im zweiten Teil dieser Studie anhand einer größeren, deutschsprachigen Stichprobe bestätigt werden konnte. Dies erlaubte es, im dritten Teil einen musikalischen Generalfaktor – bestehend aus den Leistungen der vier Musikalitätstests – zu formulieren. Die empirische Evidenz dieser Studie spricht demnach dagegen, dass musikalische Fähigkeiten modular organisiert sind, wie es Peretz und Coltheart (2003) für die Verarbeitung von Musik annehmen, und trägt durch die Favorisierung des einfaktoriellen Modells zu einer klareren Theorielage bei. Anhand der Ergebnisse der ersten beiden Teile der Studie wurden die Faktorwerte eines Generalfaktors für die zusammengeführte Stichprobe berechnet und schließlich für die einzelnen Tests alters-, geschlechts- und übungsabhängige Normwerte ermittelt.
Die gemeinsame Varianz der Leistungen auf den vier Musikalitätstests konnte nur teilweise auf das latente Konstrukt Musikalität zurückgeführt werden. Gründe dafür könnten sein, dass sich die einzelnen Tests auf jeweils unterschiedliche Aspekte der Musikwahrnehmung beschränken und damit jeweils vermeintlich verschiedene Aspekte musikalischer Wahrnehmungsfähigkeit messen. Das liegt daran, dass sie unabhängig voneinander und nicht mit der Absicht konstruiert wurden, ein gemeinsames Konstrukt (allgemeine Musikalität) zu erfassen, sondern immer nur eine ganz bestimmte Teilfähigkeit (Referenzen zu den Studien siehe letzte Spalte in Tabelle A1). Dass die einzelnen Tests dennoch so hoch korrelieren und viel gemeinsame Varianz haben, weist nicht auf mehrere voneinander unabhängige Teilfähigkeiten hin, sondern darauf, dass diese Korrelationen durch nur eine dahinterliegende latente Fähigkeit, wie zum Beispiel einen musikalischen Generalfaktor, generiert werden könnten, welcher die Leistung auf allen Tests beeinflusst. Weitere Gründe dafür, dass der Generalfaktor die Zusammenhänge zwischen den vier Musikalitätstests nicht vollständig erklärt, könnten Mediatorvariablen wie Gedächtnis oder allgemeines Hörvermögen sein, die einen Einfluss auf die Leistungen in den Musikalitätstests haben. Schüler*innen mit hohen Werten im Generalfaktor sind tendenziell auch musikalisch ausgebildet, spielen also ein Instrument oder haben Instrumentalunterricht, weisen eine hohe allgemeine musikalische Erfahrenheit auf und schnitten im Intelligenztest gut ab. Anhand dieser Ergebnisse können allerdings keine Aussagen darüber getroffen werden, ob musikalische Ausbildung zu hohen Werten im Generalfaktor führt oder umgekehrt. Genauso wenig kann darüber spekuliert werden, ob intelligentere Schüler*innen wegen ihrer Intelligenz so hohe Generalfaktorwerte haben oder, ob ihre allgemeine Musikalität beeinflusst, wie gut sie im Intelligenztest abgeschnitten haben. Die Korrelation zwischen Generalfaktor und Leistung im Intelligenztest könnte dafür sprechen, dass darüber hinaus allgemeine Intelligenz eine Mediatorvariable darstellt. Das würde bedeuten, dass intelligentere Schüler*innen möglicherweise die Aufgabenstellung der Musiktests besser verstehen, dadurch besser darin abschneiden und dementsprechend auch höhere Werte im Generalfaktor zeigen.
Alternativ kann man in der Korrelation auch eine Bestätigung der Zwei-Faktoren-Theorie der Intelligenz von Spearman sehen, nach der allgemeine Intelligenz und verschiedene Einzelfähigkeiten in Intelligenztests zusammenhängen (Neyer & Asendorpf, 2018, S. 155). Wenn man den Begriff der Einzelfähigkeiten auf die durch Musikalitätstests gemessenen Fähigkeiten ausweitet, ließe sich eine Korrelation zwischen allgemeiner Intelligenz und musikalischer Fähigkeit durch die Zwei-Faktoren-Theorie begründen. Eine weitere Erklärung wäre ein hierarchisches Intelligenzmodell, wie beispielweise die Cattell-Horn-Carroll-Theorie der kognitiven Fähigkeiten (CHC-Theorie; McGrew, 2005). Darin ist Musikalität ein Unterfaktor der auditorischen Fähigkeiten, die wiederum mit der allgemeinen Intelligenz verbunden sind.
Ausgangspunkt für diese Studie waren verschiedene Intelligenzmodelle und die Frage, ob Musikalität durch ein vergleichbares Modell beschrieben werden kann. Die Ergebnisse der durchgeführten Studien geben Anhaltspunkte dafür, dass Musikalität durch ein Ein-Faktor-Modell entsprechend Spearmans (1904b) Generalfaktormodell der Intelligenz konzeptualisiert werden kann. Ein Musikalitätskonzept, das zu Gardners (2006) Modell der multiplen, unverbundenen Intelligenzen analog ist, kann wegen der hohen Korrelationen zwischen den Musiktests ausgeschlossen werden. In die Vorüberlegungen zu dieser Arbeit wurden außerdem verschiedene Studien aus der musikpsychologischen Literatur aufgenommen. Eine davon ist die von Stankov und Horn (1980), die drei Faktoren musikalischer Wahrnehmung identifizieren konnten. Dies steht im Gegensatz zum Ergebnis des einzelnen musikalischen g-Faktors der vorliegenden Arbeit. Das musikalische Generalfaktormodell ist vereinbar mit dem Musikalitätskonzept, das mittels Wings (1961) Standardized Tests of Musical Intelligence gemessen wird. Es widerspricht Seashores (1919b) Auffassung von multiplen Musikalitätsfaktoren, die unabhängig voneinander durch die Seashore Measures of Musical Talent (Seashore, 1919a) erhoben werden.
Eine Stärke dieser Studie und allgemein des LongGold-Projekts sind die Anwendung der Item-Response-Theorie und die dadurch möglichen modernen adaptiven Testverfahren. Außerdem kann durch die sehr großen Stichproben aus zwei verschiedenen Ländern eine Generalisierung der Ergebnisse angestrebt werden. Von Okada (2018) stammt eine andere Studie, in der die Struktur musikalischer Fähigkeiten an einer deutlich kleineren Stichprobe bestehend aus 165 Personen zwischen 18 und 29 Jahren (M = 20 Jahre) untersucht wurde. Sie untersuchte darin die Leistungen in 15 Musiktests (aufgeteilt in Musikwahrnehmungs- und Produktionstests). Die Höhe der Korrelation zwischen diesen Tests ist annähernd vergleichbar mit den in Tabelle 2 berichteten Korrelationen (r = ,34 bis r = ,42). Durch eine konfirmatorische Faktorenanalyse konnte Okada vier Musikalitätsfaktoren für (1) Tonhöhe, (2) Timing, (3) Wahrnehmung und (4) Produktion identifizieren. Allerdings korrelierten der Tonhöhen- und Timing- sowie der Wahrnehmungs- und Produktionsfaktor stark miteinander (r = ,67 bzw. r = ,71; vgl. Ellis, 2010, S. 41), sodass man davon ausgehen kann, dass sie dasselbe dahinterliegende Musikalitätskonstrukt messen und das Modell daher auf zwei Faktoren reduziert werden kann. Auch wenn die Ergebnisse der Studie von Okada (2018) durch die Einschränkung dieser hohen Korrelation nicht vollkommen eindeutig sind, geben sie trotzdem Hinweise darauf, dass eine Übertragbarkeit der Ergebnisse unserer Studie, die für Kinder und Jugendliche im Alter von ungefähr zwölf Jahren gelten, auf eine Stichprobe aus älteren Jugendlichen oder Erwachsenen nicht ohne Weiteres möglich ist. Insbesondere ist nicht geklärt, ob das Generalfaktormodell auch für eine Stichprobe aus erwachsenen Profimusiker*innen seine Gültigkeit behält. In Bezug auf Unterschiede zwischen Kindern und Erwachsenen werfen Gembris et al. (1997, Sp. 869) die Frage auf, „ob die Struktur der Musikalität im Laufe des Lebens gleichbleibt oder ob sie sich verändert“. Diese Frage kann auf Grundlage der Daten, auf denen diese Arbeit basiert, nicht beantwortet werden, da diese nur eine Momentaufnahme aus einem Schuljahr widerspiegeln. Dank des Langzeitdesigns der LongGold-Studie ist es jedoch möglich, eine derartige Untersuchung mit denselben Jugendlichen in einigen Jahren zu wiederholen. Erst dann wird sich herausstellen, ob das Generalfaktormodell auch bei älteren Jugendlichen gilt und wie stabil es über einen längeren Zeitraum bleibt.