Was verbindet Tom, der Jerry jagt, einen mit einer Tarantel kämpfenden James Bond und Peter Parker, als er als Spiderman zum ersten Mal an einem Gebäude hochklettert? In den zugehörigen Filmszenen haben Rezipierende das Gefühl, dass Musik und Film in ihrer Struktur besonders gut aufeinander abgestimmt sind. Der Filmschnitt passt zu Tempo und Takt der Musik, Bewegungen in der Musik werden visuell eingefangen, Akzente in Bild und Ton erfolgen gleichzeitig—eine sogenannte “strukturelle Passung” (z. B. Cohen, 2005; Kloppenburg, 2017, S. 434) liegt vor. Dass eine Passung von Musik und Medienformat ganz allgemein eine Rolle dabei spielt, wie vorhersagbar und intensiv die Wirkung von Film- und Hintergrundmusik ausfällt, wird seit über 30 Jahren empirisch untersucht (z. B. Macinnis & Park, 1991; Marshall & Cohen, 1988). Bisherige Studien fokussieren die Übereinstimmung von Musik und medialem Kontext dabei vor allem auf emotionaler und auch assoziativer Ebene (Herget, 2021b): Greift die Musik die Emotionalität der Filmszene auf, ergänzt sie diese oder kontrastiert sie diese sogar gezielt? Werden durch bestimmte musikalische Stereotype, wie Instrumentalklischees oder spezifische Musikgenres, Assoziationen ausgelöst, die in ihrer Bedeutung zum Film passen? Vereinzelte empirische Studien (z. B. Costabile & Terman, 2013; Tan et al., 2007), vor allem jedoch Stimmen aus der Praxis betonen immer wieder auch die Relevanz einer Kongruenz auf struktureller Ebene, in die im finalen Filmschnitt oft besonders viel Zeit und Feingefühl investiert wird (Saltzman, 2022). Es stellt sich die Frage, welche Arten von struktureller Kongruenz im Filmkontext bedacht werden müssen und inwiefern diese die Wirkung eines Films beeinflussen können.
Musikalische Kongruenz und das Congruence Association Model (CAM)
Das Congruence Association Model (CAM) von Cohen erklärt, wie Musik die Wahrnehmung von Rezipierenden steuern und dabei Bedeutungen vermitteln kann (Cohen, 2010, 2015). Nicht nur im Kontext von Filmmusik, sondern in multimodalen Medien mit Musik jeglicher Art (Lipscomb, 2013; Tan, 2017), sind Rezipierende dazu in der Lage strukturell ähnliche Elemente verschiedener Ebenen des Films als zueinander passend wahrzunehmen. Wird beispielsweise Musik als strukturell passend zur Bildebene identifiziert, können durch die Musik hervorgerufene Emotionen und geweckte Assoziationen Elemente der Bildebene mit neuer Bedeutung aufladen. Zudem ist es gerade strukturelle Passung von Musik und Bild, die zu einer multisensorischen Integration der verschiedenen Ebenen des Films (Bild, Text, Sprache, Musik, Soundeffekte/Geräusche, kinästhetische Informationen) beitragen kann (Cohen, 2010, 2015; für die Anwendung des CAM auf ein konkretes Filmbeispiel, siehe Cohen, 2015).
Grundsätzlich können Musik und Bild nicht nur auf struktureller, sondern auch auf emotionaler und assoziativer Ebene zueinander passen. Am häufigsten erforscht worden ist die emotionale Kongruenz (Cohen, 2010; Unz et al., 2008). Dabei können affektiv-kongruente Musik- und Bildebenen sich hinsichtlich ihrer kommunizierten (Rosenfeld & Steffens, 2019) und induzierten Emotionen (Ellis & Simons, 2005) gegenseitig verstärken. Eine affektiv-inkongruente Kombination aus Bild- und Musikebene verringert hingegen die emotionalisierende Wirksamkeit der Hintergrundmusik (Bolivar et al., 1994; Rosenfeld & Steffens, 2019). Musik kann jedoch nicht nur emotionalisieren, sondern auch überzufällig Assoziationen wecken, welche durch aktivierte Schemata—organisierte Netzwerke von Erfahrungen, Erinnerungen und Wissen—hervorgerufen werden (Boltz, 2001; Brosius & Kepplinger, 1991; Shevy, 2008). Ähnlich wie bei der emotionalen Kongruenz können sich auch bei der assoziativen Kongruenz Bild- und Musikebenen eines Mediums in ihrer jeweiligen bedeutungsvermittelnden Wirkung verstärken (Lalwani et al., 2009; Hoeckner et al., 2011; van den Stock et al., 2009). Lassen sich musikalische und visuelle Struktur als kongruent wahrnehmen, liegt eine strukturelle Passung von Bild- und Musikebene vor, wie sie auch im CAM beschrieben wird (Cohen, 2015). Von den drei Passungsarten wurde die strukturelle Passung bislang am seltensten empirisch untersucht (Herget, 2021a). Welche Wirkungen bisher angenommen werden können, wird im folgenden Kapitel erläutert.
Arten und mögliche Wirkungen struktureller Passung
Bullerjahn (2001) definiert strukturelle Passung als “Abstimmung von filmischen und musikalischen Parametern” durch eine “Bezugnahme von Rhythmus und Tempo der Filmmusik auf die Bildbewegungen und die Schnittgeschwindigkeit” (S. 140). Lipscomb konkretisiert in seinen Überlegungen zu “accent structure alignment” (2013, S. 193) dazu passend drei Grade von struktureller Passung. Bei der konsonanten Passung (a) erfolgen Akzente in Musik und im Film im selben zeitlichen Intervall und sind (nahezu) perfekt angeglichen. Ist die Passung hingegen out-of-phase (b), erfolgen die Akzente zwar im selben zeitlichen Abstand, sind aber verschoben. Von einer dissonanten Passung (c) wird gesprochen, wenn visuelle und musikalische Akzente in voneinander unabhängigen Intervallen auftauchen (siehe Abbildung 1).
Abbildung 1
Weitere musikalische Parameter können von Relevanz sein, wenn physische Veränderungen im Bild mit Veränderungen in der Musik korrespondieren sollen: Beispielsweise können die vertikale Position einer Person oder eines Gegenstandes im Bild mit Tonhöhe und Melodieverlauf und die Größe mit Lautstärke unterstrichen werden (für einen Überblick, siehe Iwamiya, 2013). Diese Form der plakativen strukturellen Passung findet sich etwa in der bekannten Filmmusik-Technik des “Mickey Mousing”, welches auch die Filmmusikbeispiele der Einleitung kennzeichnet.
Gezielte Bedeutungsvermittlung durch strukturelle Passung
Wie bereits beschrieben, kann dem CAM zufolge strukturelle Passung die Aufmerksamkeit Rezipierender auf bestimmte Elemente im Film lenken, die dann gegebenenfalls mit durch Musik transportierter Bedeutung (Emotionen und Assoziationen) aufgeladen werden. In einem animierten Kurzfilm mit geometrischen Figuren, der mit verschiedenen Musiken unterlegt wird, wird der Charakter eines bestimmten Dreiecks, das sich im Takt der Musik bewegt, je nach emotionalem Ausdruck der Musik unterschiedlich eingeschätzt. Die Wahrnehmung der anderen geometrischen Figuren des Films, die sich nicht im Takt bewegen, wird durch die Musiken weniger stark beeinflusst—ein klares Indiz für strukturelle Passung von Musik und Dreieck (Marshall & Cohen, 1988). Mera und Stumpf (2014) beschreiben für eine Eye-Tracking-Studie zudem, dass Rezipierende einen durch Musik gezielt strukturell hervorgehobenen Filmprotagonisten länger fokussieren als in der Bedingung mit strukturell weniger passender Musikuntermalung. Dies unterstützt die These, dass strukturelle Passung die Aufmerksamkeit Rezipierender auf bestimmte Filmelemente lenken kann, die dann durch die von Musik transportierten Emotionen und Assoziationen mit Bedeutung aufgeladen werden (siehe auch Millet et al., 2021).
Wahrgenommene Filmkohärenz und immersives Filmerleben durch strukturelle Passung
Das Vorliegen von struktureller Passung von Bild und Musik wird von Rezipierenden intuitiv wahrgenommen (Bolivar et al., 1994). Ob auch feinere Unterschiede identifiziert werden, testete Lipscomb (1995). Rezipierende schreiben seinem Stimulusmaterial mit konsonanter, out-of-phase und dissonanter Passung den Graden entsprechend mehr oder weniger Synchronität zu. Dass durch strukturelle Passung ein Film stärker als in sich geschlossene Einheit wahrgenommen wird und dadurch einzelne Wirkparameter verstärkt werden, deutet sich bei Costabile und Terman (2013) an: Rezipierende bewerten die Filmprotagonist*innen positiver und äußern anschließend häufiger filmkongruente Einstellungsänderungen bei einem Stimulus mit strukturell und assoziativ passender Musik (im Vergleich zum Stimulus ohne Musik—strukturelle Passung als Auslöser ist also nicht sichergestellt). Beispielsweise wird im Filmstimulus das Kümmern um ältere Angehörige dargestellt, das—je nach Musikkonnotation—von den Proband*innen anschließend eher als positive oder negative Verantwortlichkeit klassifiziert wird. Auch bei Lin et al. (2022) werden die Stimuli mit struktureller Passung insgesamt positiver bewertet.
Zum Medium im Allgemeinen passende Musik erleichtert grundsätzlich das Eintauchen in ein Filmgeschehen (Kock & Louven, 2018; siehe auch Cohen, 2014)—hierbei scheint strukturelle Passung jedoch von besonderer Bedeutung zu sein. Bei Costabile und Terman (2013) berichten Rezipierende bei strukturell passender Musik von einer höheren narrativen Transportation, für die auch Wallengren und Strukelj (2018) in einer Eyeblink-Studie Hinweise sehen. Ebenso zeigen sich in den offenen Angaben der Studie von Mera und Stumpf (2014) latente Hinweise auf ein stärkeres Eintauchen der Rezipierenden in die fiktive Erzählung bei strukturell passender Musik. Die Ergebnisse sind bislang aber noch lückenhaft. Voraussetzung für ein immersives Filmerlebnis ist zumeist eine Emotionalisierung der Proband*innen (Wirth et al., 2012), die zum Erleben von z. B. räumlicher Präsenz beitragen kann. Das Gefühl, körperlich in die Welt des Mediums einzutauchen und darin sogar aktiv handeln zu können, wird häufig im Kontext von Computerspielen untersucht (im Hinblick auf Musik im Computerspiel, siehe Klimmt et al., 2019), kann aber auch beim Ansehen von Filmen auftreten (z. B. Bracken, 2005). Inwiefern strukturelle Passung von Musik und Film zum Erleben räumlicher Präsenz beiträgt, wurde bislang noch nicht untersucht.
Hypothesen
Studien belegen, dass Filmmusik nicht nur eine bedeutende Rolle bei der Emotionalisierung spielt, sondern auch vorhersagbar bestimmte Assoziationen hervorrufen und die Aufmerksamkeit der Rezipierenden steuern kann. Dieser Effekt ist am stärksten, wenn die Musik kongruent zum Bild ist. Die Kongruenz kann dabei auf verschiedene Arten vorhanden sein, wobei die strukturelle Passung in empirischer Forschung bisher am wenigsten berücksichtigt wurde (z. B. Cohen, 2010; Herget, 2021a).
Da eine intuitiv wahrgenommene allgemeine Passung von Musik und Film an sich induzierte Emotionen verstärkt und auch die Filmbewertung positiv beeinflusst (Ansani et al., 2020; Herget, 2021c, Herget & Albrecht, 2022; Steffens, 2020), ist anzunehmen, dass auch die strukturelle Passung, als ein Teil der allgemeinen Passung, Emotionalisierung und positive Filmbewertung begünstigt. Es gibt außerdem Hinweise darauf, dass gerade strukturelle Passung zu einer stärkeren Emotionalisierung der Rezipierenden und einer positiveren Filmbewertung beitragen kann (Costabile & Terman, 2013; Lin et al., 2022). Sie könnte zudem das Erleben räumlicher Präsenz vereinfachen (Costabile & Terman, 2013; Mera & Stumpf, 2014; Wallengren & Strukelj, 2018). Lipscomb (1995) zufolge kann dieser Effekt unterschiedlich stark ausfallen—je nach Grad der strukturellen Passung von Film und Musik. Auf Grundlage dieser Studienlage stellen wir folgende Hypothesen auf:
Eine perfekte, “konsonante” Passung von Musik und Film intensiviert bei Rezipierenden die Induzierung von Emotionen (H1) und das räumliche Präsenzerleben (H2). Auch die Filmbewertung (H3) wird von der konsonanten Bedingung am positivsten beeinflusst. Die Effekte (H1–H3) schwächen sich bei der “out-of-phase”-Passung gefolgt von der “dissonanten” Passung jeweils ab.
Methode
Methode, Design und Stichprobe
Eine a priori Stichprobenkalkulation mit G*Power (Faul et al., 2007) mit einer mittleren Effektgröße von f = 0,295 (Costabile & Terman, 2013, Transportation) ergab eine erforderliche Stichprobe von N = 129 (ANCOVA: fixed effects, main effects and interactions, α = ,05, 1 − β = ,85, Numerator df = 2, Anzahl der Gruppen = 3, Anzahl der Kovariaten = 1). Nach der Datenbereinigung (Ausschlusskriterien: ruckelnde Videowiedergabe, schlechte Bildqualität, kein Ton, Bekanntheit des Videos, zu kurze Fragebogen- und Stimulusbearbeitungszeit) flossen die Datensätze von 123 Proband*innen (61% weiblich, Alter: M = 33,1, SD = 13,11) in die Auswertung eines einfaktoriellen between-subject Online-Experiments (3 × 1-Design; Befragungssoftware UNIPARK) ein. Nach der Abfrage üblicher Informationen zur Soziodemografie entsprechend der High Hurdle Technique von Reips (2002, S. 249) wurde den Proband*innen als Stimulus zu Beginn des Experiments zufällig eine Version eines Arktisreisefilms gezeigt, der mit Musik in drei strukturellen Passungsgraden vertont wurde. Nachfolgend wurden die vom Film induzierten Emotionen, sowie Technik- und Bekanntheitschecks erhoben. Um den Zweck der Studie so lange wie möglich verdeckt zu halten, folgte nach einer Frage zu den von Musik transportierten Emotionen die Messung des räumlichen Präsenzerlebens als weiteres Konstrukt ohne Musikbezug. Abschließend wurden die verschiedenen Arten der musikalischen Passung und die musikalische Vorbildung der Proband*innen erhoben.
Stimulusbeschreibung
Als Stimulus wurde ein im Original 7-minütiges YouTube-Video (https://tinyurl.com/37pn6ez2) verwendet, das für das Online-Experiment auf 3:14 min gekürzt wurde. Lipscomb (1995) folgend wurden Stimulus-Versionen mit unterschiedlichen Passungsgraden erstellt. In der ersten Version war das Verhältnis der Akzente von Musik und Film perfekt angeglichen (“konsonant”, 4/4-Takt der Musik im Takt mit dem Videoschnitt, 90 BPM, wie im Originalvideo mit lediglich geändertem Schluss). Für die zweite Version wurde die eigentlich perfekt passende Hintergrundmusik (Two Feet: Quick Musical Doodles and Sex) um 0,6 s nach vorne verschoben (“out-of-phase”), um die Synchronisation der audiovisuellen Akzente aufzubrechen. Um größtmögliche strukturelle Asynchronie herzustellen, wurde in der dritten Bedingung eine andere Musik (Jaki Rose: Watercolors, 3/4 Takt mit 120 BPM) gewählt, sodass die Akzente in der Musik nicht mehr mit denen des Films übereinstimmten (“dissonant”). Es wurde versucht, die emotionale und assoziative Passung von Film und Musik über die drei Versionen möglichst gleich zu halten, um eine Konfundierung zu vermeiden (Videobearbeitungssoftware: Adobe Premiere Pro). Um sicherzustellen, dass den Proband*innen die Manipulation nicht auffällt, wurde auf eine professionellen Produktionsstandards genügende Qualität des Stimulusmaterials geachtet (Herget, 2021a). Das Stimulusmaterial kann bei der korrespondierenden Autorin angefragt werden.
Messinstrumente
Die verschiedenen Arten von musikalischer Passung wurden nach Kellaris et al. (1993) erhoben (emotionale Passung, z. B. “Die Musik und das Video haben beide die gleiche generelle Stimmung erzeugt”, α = ,88; assoziative Passung, z. B. “Die Musik war in Bezug auf das Thema des Videos angemessen", α = ,81). Sowohl die emotionale als auch assoziative Passung dienen als Konfundierungschecks. Ein Item zur strukturellen Passung wurde durch zwei weitere Items ergänzt (angelehnt an Lipscomb, 1995, und Bolivar et al., 1994; z. B. “Musikschnitt und Videoschnitt haben perfekt zueinander gepasst”, α = ,89). Für jede der drei Passungen wurden drei Items verwendet.
Für die Erhebung der transportierten Emotionen, als weiteren Konfundierungscheck, wurden die Dimensionen Transzendenz (α = ,84) und Beruhigung (α = ,92) der Geneva Emotional Music Scale (GEMS, Zentner et al., 2008; deutsche Version nach Lykartsis et al., 2013) mit je drei Items gemessen. Aus den neun Emotionsdimensionen, die die GEMS umfasst, wurden diejenigen ausgewählt, bei denen eine Beeinflussung durch das Stimulusmaterial am wahrscheinlichsten erschien. Die induzierten Emotionen wurden auf den gleichen Emotionsdimensionen ermittelt (Transzendenz: α = ,82; Beruhigung: α = ,87).
Wirth et al. (2012) führten Untersuchungen zur Rolle von unter anderem emotionalem Involvement bei der Bildung von Spatial Presence durch, weshalb ihre Arbeit als Grundlage für dieses Messinstrument diente. Es wurden vier Items in die Auswertung einbezogen, α = ,86. Die verwendete Skala zur Bewertung des Films stützt sich auf Spears und Singh (2004). Die drei übernommenen Items (α = ,80, z. B. “Das Video hat mir gefallen.”) wurden inhaltlich für den Filmkontext leicht angepasst.
Alle bisherigen Konstrukte wurden zur einfacheren Bearbeitung im Online-Fragebogen einheitlich auf einer fünfstufigen Likert-Skala erhoben.
Die musikalische Vorbildung der Proband*innen wurde durch drei Items zur musikalischen Ausbildung des Gold-MSI (Müllensiefen et al., 2014; deutsche Version nach Schaal et al., 2014, α = ,86, z. B. “Wie viele Jahre insgesamt haben Sie regelmäßig und täglich ein Instrument (einschließlich Gesang) geübt?”) gemessen (für eine Übersicht der Messinstrumente siehe Machulla et al., 2023). In Studien im Kontext von Musik in audiovisuellen Medien hatte sie sich zuvor als relevante intervenierende Variable gezeigt (z. B. Bullerjahn et al., 1993; Rossmann & Rossmann, 2018).
Ergebnisse
Manipulation- und Konfundierungscheck
In Abhängigkeit der strukturellen Passung der Hintergrundmusik zum Film haben die Proband*innen die konsonante (M = 4,10, SD = 0,81) Bedingung als passender wahrgenommen, als die out-of-phase (M = 3,81, SD = 0,89) oder dissonante (M = 3,30, SD = 1,12) Bedingung, F(2, 120) = 7,49, p < ,001, η2 = ,11 (siehe Abbildung 2).
Abbildung 2
In einer geplanten Kontrastanalyse wird der Mittelwertunterschied zwischen der konsonanten und out-of-phase Bedingung nicht signifikant, t(120) = −1,33, p = ,19, Cohen’s d = 0,30, der zwischen der konsonanten und dissonanten Bedingung hingegen wird signifikant, t(120) = −3,79, p < ,001, Cohen’s d = 0,84.
Um möglichst sicherzustellen, dass sich in der Hypothesenprüfung abzeichnende Unterschiede zwischen den experimentellen Bedingungen auf eine Manipulation der strukturellen Passung zurückführen lassen, wurden Konfundierungschecks durchgeführt. Das Stimulusmaterial sollte sich trotz der verschiedenen verwendeten Musiken bezüglich seiner emotionalen und assoziativen Passung sowie den von den Musiken transportierten Emotionen nicht signifikant unterscheiden. Es wurde für die Datenauswertung keine bedeutsame Konfundierung identifiziert (für Details zu diesen Auswertungen siehe Tabellen S1 und S2 in Machulla et al., 2023).
Hypothesenauswertung
Ersten Studien zur Wirkung von struktureller Passung von Musik und Film folgend sollte sich eine höhere strukturelle Passung von Musik und Film positiv auf die Emotionalisierung der Proband*innen, ihr räumliches Präsenzerleben und die Filmbewertung auswirken.
Hinsichtlich der durch die Musik in den Proband*innen ausgelöste Emotion Transzendenz unterscheiden sich die Mittelwerte der Stimulusbedingungen signifikant, F(2, 119) = 3,72, p = ,03, η2 = ,06 (siehe Tabelle 1). Mit zunehmender struktureller Passung wird die Emotion wie erwartet stärker ausgelöst, jedoch zeigen sich in einer geplanten Kontrastanalyse (konsonant vs. out-of-phase, konsonant vs. dissonant) keine signifikanten Unterschiede (siehe Tabelle 5, erste Zeile). Zudem empfinden die Proband*innen in der out-of-phase- statt in der konsonanten Bedingung die stärkste Transzendenz (jedoch ohne signifikanten Unterschied zur konsonanten Bedingung).
Tabelle 1
Abhängige Variable | Exp. Bedingung | n | EM | M | SD | F | df | p | η2 |
---|---|---|---|---|---|---|---|---|---|
Induzierte Emotion: Transzendenz | dissonant | 45 | 3,17 | 3,16 | 0,83 | 3,72 | 2, 119 | ,03 | ,06 |
out-of-phase | 40 | 3,69 | 3,69 | 1,04 | |||||
konsonant | 38 | 3,56 | 3,57 | 0,89 | |||||
Musikalische Vorbildung | 1,44 | 1, 119 | ,23 | ,01 |
Anmerkung. ANCOVA zur Wirkung unterschiedlicher Grade an struktureller Passung auf die induzierte Emotion Transzendenz, unter Berücksichtigung des Einflusses der musikalischen Vorbildung der Proband*innen als intervenierende Variable. N = 123, EM = geschätzte Randmittel, M = Mittelwerte, SD = Standardabweichung. Fett gedruckte Werte sind signifikant bei p < ,05.
Ein ähnliches Bild zeigt sich für die vom Arktisfilm ausgelöste Emotion der Beruhigung. Proband*innen in der Bedingung mit dissonanter Musik empfinden weniger Beruhigung als Proband*innen mit strukturell passenderer Musik, F(2, 119) = 5,13, p = ,01, η2 = ,08 (siehe Tabelle 2). Hier unterscheidet sich jedoch wie erwartet in der geplanten Kontrastanalyse (konsonant vs. out-of-phase, konsonant vs. dissonant) die konsonante von der dissonanten Bedingung signifikant mit mittlerer Effektstärke. Wie bei der Transzendenz auch erleben Proband*innen in der out-of-phase-Bedingung die stärkste Emotionalisierung—die konsonante und die out-of-phase-Bedingung zeigen sich dabei jedoch erneut nicht signifikant unterschiedlich (siehe Tabelle 5, zweite Zeile). Die erste Hypothese muss verworfen werden—wobei sich eine Tendenz für eine höhere Emotionalisierung bei konsonanter als bei dissonanter Passung andeutet.
Tabelle 2
Abhängige Variable | Exp. Bedingung | n | EM | M | SD | F | df | p | η2 |
---|---|---|---|---|---|---|---|---|---|
Induzierte Emotion: Beruhigung | dissonant | 45 | 3,14 | 3,15 | 1,10 | 5,13 | 2, 119 | ,01 | ,08 |
out-of-phase | 40 | 3,73 | 3,73 | 0,74 | |||||
konsonant | 38 | 3,64 | 3,62 | 0,91 | |||||
Musikalische Vorbildung | 3,19 | 1, 119 | ,08 | ,02 |
Anmerkung. ANCOVA zur Wirkung unterschiedlicher Grade an struktureller Passung auf die induzierte Emotion Beruhigung, unter Berücksichtigung des Einflusses der musikalischen Vorbildung der Proband*innen als intervenierende Variable. N = 123, EM = geschätzte Randmittel, M = Mittelwerte, SD = Standardabweichung. Fett gedruckte Werte sind signifikant bei p < ,05.
Werden die Ergebnisse der ANCOVA zum räumlichen Präsenzerleben der Proband*innen betrachtet, lassen sich über die Bedingungen hinweg signifikante Mittelwertunterschiede feststellen, F(2, 119) = 4,60, p = ,01, η2 = ,07 (siehe Tabelle 3). Ein signifikanter Mittelwertunterschied zeigt sich zwar zwischen der konsonanten und dissonanten Bedingung, t(120) = −2,56, p = ,01, allerdings nicht zwischen der konsonanten und der out-of-phase-Bedingung, t(120) = 0,02, p = ,99 (siehe Tabelle 5, dritte Zeile). Somit muss die zweite Hypothese verworfen werden, auch wenn sich die Wahrnehmung der Proband*innen bezüglich der räumlichen Präsenz zwischen der konsonanten und dissonanten Bedingung signifikant voneinander unterscheidet.
Tabelle 3
Abhängige Variable | Exp. Bedingung | n | EM | M | SD | F | df | p | η2 |
---|---|---|---|---|---|---|---|---|---|
Räumliche Präsenz | dissonant | 45 | 1,89 | 1,88 | 0,85 | 4,60 | 2, 119 | ,01 | ,07 |
out-of-phase | 40 | 2,40 | 2,40 | 0,93 | |||||
konsonant | 38 | 2,40 | 2,40 | 0,93 | |||||
Musikalische Vorbildung | 0,19 | 1, 119 | ,66 | < ,01 |
Anmerkung. ANCOVA zur Wirkung unterschiedlicher Grade an struktureller Passung auf das räumliche Präsenzerleben, unter Berücksichtigung des Einflusses der musikalischen Vorbildung der Proband*innen als intervenierende Variable. N = 123, EM = geschätzte Randmittel, M = Mittelwerte, SD = Standardabweichung. Fett gedruckte Werte sind signifikant bei p < ,05.
Die allgemeine Filmbewertung betreffend unterscheiden sich die Mittelwerte der drei Stimulusbedingungen nicht signifikant voneinander, F(2, 119) = 1,00, p = ,37, η2 = ,02 (siehe Tabelle 4).
Tabelle 4
Abhängige Variable | Exp. Bedingung | n | EM | M | SD | F | df | p | η2 |
---|---|---|---|---|---|---|---|---|---|
Filmbewertung | dissonant | 45 | 3,59 | 3,58 | 0,91 | 1,00 | 2, 119 | ,37 | ,02 |
out-of-phase | 40 | 3,79 | 3,78 | 0,81 | |||||
konsonant | 38 | 3,84 | 3,85 | 0,90 | |||||
Musikalische Vorbildung | 1,47 | 1, 119 | ,23 | ,01 |
Anmerkung. ANCOVA zur Wirkung unterschiedlicher Grade an struktureller Passung auf die Filmbewertung, unter Berücksichtigung des Einflusses der musikalischen Vorbildung der Proband*innen als intervenierende Variable. N = 123, EM = geschätzte Randmittel, M = Mittelwerte, SD = Standardabweichung.
Die dritte Hypothese, nach welcher sich die Filmbewertung mit steigender struktureller Passung verbessert, muss verworfen werden, wobei sich in den Mittelwerten auch hier die vermutete Tendenz abzeichnet.
Tabelle 5
Abhängige Variable | Kontraste | df | t | p | Cohen’s d |
---|---|---|---|---|---|
Induzierte Emotionen: Transzendenz | konsonant vs. out-of-phase | 120 | 0,65 | ,52 | 0,12 |
konsonant vs. dissonant | 120 | -1,90 | ,06 | 0,48 | |
Induzierte Emotionen: Beruhigung | konsonant vs. out-of-phase | 120 | 0,43 | ,67 | 0,13 |
konsonant vs. dissonant | 120 | -2,47 | ,02 | 0,54 | |
Räumliche Präsenz | konsonant vs. out-of-phase | 120 | 0,02 | ,99 | 0,01 |
konsonant vs. dissonant | 120 | -2,56 | ,01 | 0,58 | |
Filmbewertung | konsonant vs. out-of-phase | 120 | -0,27 | ,79 | 0,08 |
konsonant vs. dissonant | 120 | -1,32 | ,19 | 0,30 |
Anmerkung. Fett gedruckte Werte sind signifikant bei p < ,05.
Die in alle Analysen einbezogene Kovariate der musikalischen Vorbildung der Proband*innen hat bei keiner der abhängigen Variablen einen signifikanten Effekt (siehe Tabellen 1–4).
Diskussion
Positive Effekte struktureller Passung von Musik sind bereits jenseits des Films bekannt. So zeigen zum Beispiel Loo et al. (2019) im Kontext von Musik und Sport oder Meals et al. (2019) bezüglich der Dirigierqualität positive Effekte bei struktureller Passung. Hingegen ist Forschung zu struktureller Kongruenz im Filmkontext bislang rar (Lipscomb, 2013). Die Ergebnisse dieses Experiments legen nahe, dass zu einem Film möglichst strukturell passend eingesetzte Musik die von Rezipierenden empfundenen Emotionen (hier: Beruhigung) und den Grad der wahrgenommenen räumlichen Präsenz signifikant verbessert. Die gefundenen Effekte sind in ihrer Größe zudem vergleichbar mit Effektstärken ähnlicher Parameter vorheriger Studien. So deckt sich die gefundene mittlere Effektstärke der räumlichen Präsenz mit der gemessenen Transportation bei Costabile und Terman (2013, η2 = ,07). In der vorliegenden Studie kann bezüglich der Filmbewertung kein signifikanter Unterschied festgestellt werden. Die Mittelwerte stellen sich zwar wie erwartet dar, allerdings nur mit einer kleinen Effektstärke. Hinsichtlich der Filmbewertung konnten auch Lin et al. (2022) einen kleinen bis mittleren Effekt zu Gunsten konsonanter vs. dissonanter struktureller Passung bei audiovisuellen Medien feststellen (Cohen’s dz = 0,40). Mit einer größeren Stichprobe hätten sich womöglich auch in der vorliegenden Studie signifikante Effekte zur Filmbewertung darstellen lassen, was in zukünftiger Forschung noch zur Überprüfung aussteht.
In den geplanten Kontrastanalysen ließen sich zwischen der konsonanten (d. h. perfekt passenden) und der dissonanten (d. h. unpassenden) Bedingung signifikante Unterschiede finden. Obwohl bisherige Forschungsliteratur auch feinere Unterschiede der strukturellen Passung nahelegen (bspw. Lipscomb, 1995), konnten die vorliegenden Ergebnisse wider Erwarten auf keine signifikanten Unterschiede zwischen der konsonanten und der out-of-phase-Bedingung hinweisen. Könnte die meist implizite, d. h. unbewusste Verarbeitung von Hintergrundmusik (Strobin et al., 2015; Thompson et al., 1994) hier zu einem Problem geführt haben? Ein Blick in bisherige Forschungen (Bolivar et al., 1994; Lin et al., 2022; Lipscomb, 1995) und Cronbach’s α = ,89 für das vorliegende Instrument zur Erfassung der wahrgenommenen strukturellen Passung weisen darauf hin, dass Proband*innen durchaus dazu in der Lage sind, von dieser Form der Wahrnehmung explizit zu berichten.
Auswahl und Bearbeitung des Stimulusmaterials könnten die nur geringen Unterschiede zwischen den beiden passenden Stimulusbedingungen (konsonant und out-of-phase) erklären. Wie u. a. von Lipscomb (2005) gefordert, wird im Experiment mit komplexem, realistischem Stimulusmaterial gearbeitet. Das im Experiment als konsonante Bedingung verwendete Originalvideo weist aber eine Besonderheit auf: Offensichtlich wurde hier das Bild auf den 4/4-Takt der Musik geschnitten und nicht die Musik aufs Bild—ein für audiovisuelle Medienformate unübliches Vorgehen (z. B. Camp, 2013, zit. n. Strobin et al., 2015, S. 251). Die dadurch entstandene, tatsächlich nahezu perfekte strukturelle Passung des Taktes von Musik und Bild—ein idealer konsonanter Stimulus—stellte bei der Erstellung der out-of-phase-Bedingung eine Herausforderung dar. Eine Verschiebung der verwendeten Musik um nahezu jedes Zeitintervall ergab ungewollt wieder eine Passung zum Bild. Ohnehin neigen Rezipierende dazu, komplexe Stimuli bis zu einem gewissen Grad meist als strukturell passend wahrzunehmen, da das Gehirn bei der Rezeption bewusst nach Kongruenzen sucht und sie in einem gewissen Umfang auch dort herstellt, wo keine existieren (Lipscomb, 2013). Die hier gewählte Verschiebung der Musik um 0,6 s wirkte am unpassendsten—die Unterschiede in der Passung zwischen konsonant und out-of-phase sind dennoch fein. Trifft in der Realität Hintergrundmusik auf einen nicht in einem bestimmten Takt geschnittenen Filmausschnitt, ist das Potenzial einer feineren Abstufung von Nicht-Passung größer.
Da durch eine zeitliche Verschiebung der Musik, die in Takt und Tempo perfekt zum Video passt, bereits eine out-of-phase-Passung des Stimulusmaterials nur schwer herzustellen war, musste für die unpassende Bedingung eine andere Musik verwendet werden. Sind die im Experiment gefundenen Unterschiede zwischen den beiden passenden und der unpassenden Bedingung womöglich eher durch sich unterscheidende musikalische Parameter als durch Unterschiede in der strukturellen Passung zu erklären? Um eine ähnliche Wirkung der verwendeten Hintergrundmusiken möglichst sicherzustellen, wurden in umfassenden Konfundierungschecks die Passungsarten der Musiken (emotional und assoziativ) sowie die von ihnen transportierten Emotionen (Transzendenz und Beruhigung) gemessen. Mit Ausnahme der transportierten Transzendenz zwischen der konsonanten und dissonanten Bedingung transportieren die Stimulusvarianten die gleichen Emotionen und wurden in ihrer emotionalen und assoziativen Passung nicht signifikant unterschiedlich wahrgenommen. Es handelt sich zwar dementsprechend um verschiedene Musiken, die aber nach professionellen Qualitätsstandards hinsichtlich ihrer musikalischen Parameter so ausgewählt wurden, dass sie in ihrer Wirkung so ähnlich sind wie möglich. In künftiger Forschung könnte die interne Validität des Stimulusmaterials durch eigens für die Forschung komponierte Musiken, die sich tatsächlich möglichst nur im Parameter der strukturellen Passung unterscheiden, erhöht werden und die externe Validität durch einen Filmstimulus, der nicht auf die Musik geschnitten wurde.
Nicht zuletzt könnten die geringer als erwartet ausgefallenen Unterschiede zwischen den passenden Bedingungen durch die Durchführung als Online-Experiment zu erklären sein. Die nur eingeschränkte Kontrolle der Teilnahmebedingungen (z. B. unterschiedliche Sound-Wiedergabequellen) und dadurch eventuell auftretende Störfaktoren (Reips, 2002) könnten verhindert haben, dass die nur feinen Unterschiede der strukturellen Passung wahrgenommen werden. Um dieser Grundproblematik zu begegnen, werden Musikwirkungsexperimente oft im Labor durchgeführt (Eerola & Vuoskoski, 2013; Herget, 2021b). Eine höhere externe Validität der Forschung zu Musikwirkungen ist jedoch wünschenswert und kann nur durch die Untersuchung realistischerer Rezeptionssituationen erreicht werden. Dass in dieser Studie gezeigt wurde, dass Rezipierende bei der alltäglichen Mediennutzung grundsätzlich verschieden auf strukturell deutlich unterschiedlich passende Hintergrundmusiken reagieren, ist umso beachtlicher. In zukünftiger Forschung könnten jedoch etwa die Sound-Wiedergabequellen der Proband*innen erhoben werden, um einen möglichen Einfluss dieses Faktors zu kontrollieren (Wycisk et al., 2023, 2024). Ähnlich verhält es sich mit der Bildschirmgröße bzw. dem Medium, auf dem die Studie durchgeführt wird. Iwamiya merkte bereits 1994 (Iwamiya, 1994, S. 152) an, dass diese einen Einfluss auf die Wahrnehmung visueller Details haben, wodurch eine Einflussnahme auf die Wahrnehmung der strukturellen Passung zustande kommen kann.
Grundsätzlich ist die fehlende Repräsentativität der Stichprobe anzumerken. Das jüngere Durchschnittsalter der Proband*innen, die mit User Generated Content sozialisiert sind (Turner, 2015), könnte dazu führen, dass sie audiovisuelle Medien und damit auch strukturelle Passung von Musik und Medienformat grundsätzlich anders verarbeiten als ältere Generationen.
Weitere intervenierende Variablen, die die Wahrnehmung struktureller Passung beeinflussen könnten, in dieser Studie aber nicht beachtet wurden, sind das Musikgefallen (z. B. Herget et al., 2022) und die Kombination aus musikalischer Expertise und “visual literacy” (Lipscomb, 1995, S. 166), da Personen, die eine künstlerisch-visuelle und musikalische Ausbildung haben, dazu neigen, entsprechende Elemente in ihrer Umgebung verstärkt wahrzunehmen. Dadurch könnte eine Verzerrung der Ergebnisse zustande gekommen sein.
Während die vorliegende Studie erste Hinweise zu den Effekten struktureller Passung gibt, bleibt bislang offen, worauf diese Wirkungen basieren. Lin et al. (2022) vermuten, dass eine verbesserte cross-modale Integration, also die Interaktion zweier sensorischer Modalitäten (hier Hören und Sehen), das Verstehen von Sinneseindrücken vereinfacht. Diese „perceptual fluency“ führt zu einem besseren audiovisuellen Wahrnehmungsfluss, was wiederum eine Steigerung der Wahrnehmungsfreude nach sich ziehen könnte. Eine Synchronisation der Rhythmen von Musik und Bild könnte zudem zu Entrainment führen, was ebenfalls die Rezeption angenehmer machen würde. Eine zu perfekte Integration—der These der optimalen Aktivation von Berlyne (1970) umgekehrt u-förmiger Kurve folgend—könnte bei Rezipierenden jedoch auch zu Langeweile führen. Inwiefern Fluency oder Entrainment als zugrundeliegende psychologische Konzepte tatsächlich eine Rolle bei der Erklärung der Effekte spielen, sollte in zukünftiger Forschung Beachtung finden.