Frontiers in Psychology

McGurk und MacDonald (1976) berichteten über eine starke multisensorische Illusion, die bei audiovisueller Sprache auftritt. Sie nahmen eine Stimme auf, die einen Konsonanten artikulierte, und synchronisierten sie mit einem Gesicht, das einen anderen Konsonanten artikulierte. Obwohl das akustische Sprachsignal allein gut erkannt wurde, wurde es nach der Synchronisation mit inkongruenter visueller Sprache als ein anderer Konsonant gehört. Diese Täuschung wurde als McGurk-Effekt bezeichnet. Er wurde mehrfach reproduziert und hat eine Fülle von Forschungen ausgelöst. Der Grund für die große Wirkung ist, dass es sich um eine eindrucksvolle Demonstration der multisensorischen Integration handelt. Sie zeigt, dass auditive und visuelle Informationen zu einer einheitlichen, integrierten Wahrnehmung verschmolzen werden. Er ist ein sehr nützliches Forschungsinstrument, da die Stärke des McGurk-Effekts die Stärke der audiovisuellen Integration widerspiegeln kann.

Hier möchte ich zwei Hauptaussagen zur Definition und Interpretation des McGurk-Effekts machen, da sie für seine Verwendung als Maß für die multisensorische Integration von Bedeutung sind. Erstens sollte der McGurk-Effekt als eine kategoriale Veränderung der auditiven Wahrnehmung definiert werden, die durch inkongruente visuelle Sprache hervorgerufen wird und zu einer einzigen Wahrnehmung führt, etwas anderes zu hören als das, was die Stimme sagt. Zweitens ist es bei der Interpretation des McGurk-Effekts von entscheidender Bedeutung, die Wahrnehmung der unisensorischen akustischen und visuellen Stimuluskomponenten zu berücksichtigen.

Es gibt viele Varianten des McGurk-Effekts (McGurk und MacDonald, 1976; MacDonald und McGurk, 1978)1. Der bekannteste Fall ist der, bei dem die Synchronisierung einer Stimme mit einem Gesicht, das sich artikuliert, zum Hören führt. Dies wird als Fusionseffekt bezeichnet, da sich die Wahrnehmung von akustischen und visuellen Komponenten unterscheidet. Viele Forscher haben den McGurk-Effekt ausschließlich als Fusionseffekt definiert, weil hier die Integration zur Wahrnehmung eines dritten Konsonanten führt, wobei offensichtlich Informationen aus dem Hör- und Sehvermögen zusammengeführt werden (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Diese Definition ignoriert die Tatsache, dass andere inkongruente audiovisuelle Reize unterschiedliche Arten von Wahrnehmungen hervorrufen. Zum Beispiel wird eine umgekehrte Kombination dieser Konsonanten, AV, als gehört, d. h. die visuellen und auditiven Komponenten werden nacheinander gehört. Es gibt auch andere Paarungen, die zu einem Hören entsprechend der visuellen Komponente führen, z. B. wird eine akustische Äußerung, die mit einer visuellen präsentiert wird, als gehört. Hier ist meine erste Behauptung, dass die Definition des McGurk-Effekts darin bestehen sollte, dass eine akustische Äußerung als eine andere Äußerung gehört wird, wenn sie mit einer abweichenden visuellen Artikulation präsentiert wird. Diese Definition schließt alle Varianten der Illusion ein und wurde von MacDonald und McGurk (1978) selbst sowie von mehreren anderen Autoren verwendet (z. B. Rosenblum und Saldaña, 1996; Brancazio et al., 2003). Die verschiedenen Varianten des McGurk-Effekts stellen das Ergebnis der audiovisuellen Integration dar. Wenn die Integration stattfindet, führt sie zu einer einheitlichen Wahrnehmung, ohne dass die einzelnen Komponenten, die zur Wahrnehmung beigetragen haben, zugänglich sind. Wenn also der McGurk-Effekt auftritt, hat der Beobachter die subjektive Erfahrung, eine bestimmte Äußerung zu hören, obwohl eine andere Äußerung akustisch präsentiert wird.

Eine Herausforderung bei dieser Interpretation des McGurk-Effekts besteht darin, dass es unmöglich ist, sicher zu sein, dass die Antworten des Beobachters den tatsächlichen Wahrnehmungen entsprechen. Der echte McGurk-Effekt entsteht durch multisensorische Integration, die zu einer veränderten Hörwahrnehmung führt. Findet jedoch keine Integration statt, kann der Beobachter die Komponenten getrennt wahrnehmen und entweder nach dem, was er gehört hat, oder nach dem, was er gesehen hat, reagieren. Dies ist ein Grund, warum der Fusionseffekt so attraktiv ist: Wenn der Beobachter eine Wahrnehmung meldet, die sich von beiden Stimuluskomponenten unterscheidet, scheint er sich nicht nur auf eine der beiden Modalitäten zu verlassen, sondern tatsächlich die Informationen aus beiden zu verschmelzen. Allerdings garantiert dieser Ansatz ebenso wenig wie die anderen Varianten der Illusion ein einfaches Maß für die Integration, wie weiter unten dargelegt wird.

Die zweite Hauptaussage ist, dass die Wahrnehmung der akustischen und visuellen Reizkomponenten bei der Interpretation des McGurk-Effekts berücksichtigt werden muss. Dieses Thema wurde bereits in der umfangreichen Arbeit von Massaro und Kollegen (Massaro, 1998) und anderen (Sekiyama und Tohkura, 1991; Green und Norrix, 1997; Jiang und Bernstein, 2011) behandelt. Er ist wichtig, weil sich die Identifikationsgenauigkeit von unisensorischen Komponenten in der audiovisuellen Sprachwahrnehmung widerspiegelt.

Im Allgemeinen wird angenommen, dass die Stärke des McGurk-Effekts zunimmt, wenn der Anteil der Antworten entsprechend der akustischen Komponente abnimmt und/oder wenn der Anteil der Fusionsantworten zunimmt. Das heißt, der McGurk-Effekt für den Stimulus AV wird als stärker angesehen, wenn weniger B-Antworten und/oder mehr D-Antworten gegeben werden. Dies ist häufig eine angemessene Methode zur Messung der Stärke des McGurk-Effekts – wenn man bedenkt, dass dabei implizit davon ausgegangen wird, dass die Wahrnehmung der akustischen und visuellen Komponenten korrekt ist (oder zumindest über die zu vergleichenden Bedingungen hinweg konstant ist). Er kann jedoch zu falschen Schlussfolgerungen führen, wenn diese Annahme nicht zutrifft.

Der Fusionseffekt ist ein Paradebeispiel für diesen Vorbehalt. Er wurde dahingehend interpretiert, dass akustische und visuelle Informationen integriert werden, um eine neuartige Zwischenwahrnehmung zu erzeugen. Wenn zum Beispiel AV als gehört wird, wird angenommen, dass die Wahrnehmung durch die Fusion der Merkmale (für den Ort der Artikulation), die über das Gehör (bilabial) und das Sehen (velar) bereitgestellt werden, entsteht, so dass ein anderer Zwischenkonsonant (alveolar) wahrgenommen wird (van Wassenhove, 2013). Allerdings schrieben bereits McGurk und MacDonald (1976) selbst, dass „Lippenbewegungen für häufig fälschlicherweise als ,“ gelesen werden, obwohl sie leider keine Sprachleseleistung gemessen haben. Die Auslassung der unisensorischen visuellen Bedingung in der ursprünglichen Studie ist ein Faktor, der dazu beigetragen hat, dass der Fusionseffekt als einziger echter McGurk-Effekt, der eine echte Integration widerspiegelt, einen starken Status hat. Dennoch, wenn visuell mit , verwechselt wird, ist es überhaupt nicht überraschend oder besonders, wenn AV als .

Um den Beitrag der unisensorischen Komponenten deutlicher zu demonstrieren, nehme ich zwei Beispiele aus meiner Forschung, in denen fusionsartige Reize unterschiedliche Wahrnehmungen in Abhängigkeit von der Klarheit der visuellen Komponente erzeugten. In einer Studie wurde ein McGurk-Reiz AV hauptsächlich als Fusion gehört (Tiippana et al., 2004). Dies spiegelte die Tatsache wider, dass in einer rein visuellen Identifizierungsaufgabe das Visuelle mit (42 % K-Antworten und 45 % T-Antworten auf das Visuelle) verwechselt wurde. In einer anderen Studie wurde ein McGurk-Stimulus AV hauptsächlich als , gehört, was darauf zurückzuführen war, dass in einer rein visuellen Identifizierungsaufgabe das Visuelle deutlich von , zu unterscheiden war und daher sehr genau erkannt wurde (100% richtig bei typischen Erwachsenen; Saalasti et al., 2012; beachten Sie jedoch das abweichende Verhalten von Personen mit Asperger-Syndrom). Obwohl die McGurk-Stimuli in beiden Studien vom gleichen Typ waren, unterschied sich ihre Wahrnehmung also vor allem in Abhängigkeit von der Klarheit der visuellen Komponenten. Diese Ergebnisse unterstreichen, wie wichtig es ist, die Wahrnehmungsqualitäten der unisensorischen Reize zu kennen, bevor man Schlussfolgerungen über die multisensorische Integration zieht.

Wie genau die Eigenschaften der unisensorischen Komponenten bei der multisensorischen Wahrnehmung von Sprache zu berücksichtigen sind, geht über den Rahmen dieser Arbeit hinaus. Um diese Frage im Detail zu klären, sind sorgfältig konzipierte experimentelle Studien (Bertelson et al., 2003; Alsius et al., 2005), computergestützte Modellierung (Massaro, 1998; Schwartz, 2010) und die Untersuchung der zugrunde liegenden Gehirnmechanismen (Sams et al., 1991; Skipper et al., 2007) erforderlich. Die wichtigste Leitlinie ist jedoch, dass die unisensorische Wahrnehmung von Reizkomponenten in die multisensorische Wahrnehmung des Ganzen einfließt (Ernst und Bülthoff, 2004).

Wenn die Aufgabe darin besteht, zu berichten, was gehört wurde, berichtet der Beobachter in Experimenten die bewusste auditive Wahrnehmung, die durch den audiovisuellen Reiz hervorgerufen wurde. Wenn es keine multisensorische Integration oder Interaktion gibt, ist die Wahrnehmung für den audiovisuellen Reiz und die allein präsentierte auditive Komponente identisch. Bei audiovisueller Integration ändert sich die bewusste Hörwahrnehmung. Inwieweit der visuelle Input die Wahrnehmung beeinflusst, hängt davon ab, wie kohärent und verlässlich die einzelnen Modalitäten Informationen liefern. Kohärente Informationen werden integriert und z. B. entsprechend der Zuverlässigkeit jeder Modalität gewichtet, was sich in der unisensorischen Unterscheidbarkeit widerspiegelt.

Dieser Wahrnehmungsprozess ist derselbe für audiovisuelle Sprache – sei es natürliche, kongruente audiovisuelle Sprache oder künstliche, inkongruente McGurk-Sprachreize. Das Ergebnis ist die bewusste Hörwahrnehmung. Je nach der relativen Gewichtung von Hören und Sehen kann das Ergebnis bei McGurk-Reizen vom Hören nach der akustischen Komponente (wenn das Hören zuverlässiger ist als das Sehen) über Fusions- und Kombinationswahrnehmungen (wenn beide Modalitäten bis zu einem gewissen Grad informativ sind) bis zum Hören nach der visuellen Komponente (wenn das Sehen zuverlässiger ist als das Hören) reichen. Kongruente audiovisuelle Sprache wird nicht anders behandelt und zeigt einen visuellen Einfluss, wenn die auditive Zuverlässigkeit abnimmt. Die verschiedenen Varianten des McGurk-Effekts sind alle das Ergebnis desselben Wahrnehmungsprozesses und spiegeln die audiovisuelle Integration wider.

Der McGurk-Effekt ist ein hervorragendes Instrument zur Untersuchung der multisensorischen Integration in der Sprachwahrnehmung. Die Hauptaussagen dieser Stellungnahme sind erstens, dass der McGurk-Effekt als eine Veränderung der auditiven Wahrnehmung aufgrund inkongruenter visueller Sprache definiert werden sollte, so dass die Beobachter einen anderen Sprachklang hören als den, den die Stimme geäußert hat, und zweitens, dass die Wahrnehmungseigenschaften der akustischen und visuellen Stimuluskomponenten berücksichtigt werden sollten, wenn der McGurk-Effekt als Ausdruck von Integration interpretiert wird.

Erklärung zu Interessenkonflikten

Der Autor erklärt, dass die Forschung in Abwesenheit jeglicher kommerzieller oder finanzieller Beziehungen durchgeführt wurde, die als potenzieller Interessenkonflikt ausgelegt werden könnten.

Anerkennung

Diese Forschung wurde durch ein Stipendium der Universität Helsinki finanziert.

Fußnoten

1. In dieser Arbeit werden nur einige repräsentative Referenzen als Beispiele für die umfangreiche Literatur zu jedem Thema genannt.

Alsius, A., Navarra, J., Campbell, R., and Soto-Faraco, S. (2005). Audiovisuelle Integration von Sprache versagt bei hohen Aufmerksamkeitsanforderungen. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Bertelson, P., Vroomen, J., and De Gelder, B. (2003). Visuelle Rekalibrierung der auditiven Sprachidentifikation: ein McGurk-Aftereffekt. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Brancazio, L., Miller, J. L., and Paré, M. A. (2003). Visuelle Einflüsse auf die interne Struktur von phonetischen Kategorien. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Ernst, M. O., und Bülthoff, H. H. (2004). Die Verschmelzung der Sinne zu einer robusten Wahrnehmung. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Green, K. P., and Norrix, L. W. (1997). Acoustic cues to place of articulation and the McGurk effect: the role of release bursts, aspiration, and formant transitions. J. Speech Lang. Hear. Res. 40, 646-665.

Pubmed Abstract | Pubmed Full Text

Jiang, J., and Bernstein, L. E. (2011). Psychophysik des McGurk-Effekts und anderer audiovisueller Sprachintegrationseffekte. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). Über die Variabilität des McGurk-Effekts: Audiovisuelle Integration hängt von präimulusalen Hirnzuständen ab. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

MacDonald, J., and McGurk, H. (1978). Visuelle Einflüsse auf Sprachwahrnehmungsprozesse. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Massaro, D. W. (1998). Perceiving Talking Faces. Cambridge, MA: MIT Press.

McGurk, H., and MacDonald, J. (1976). Hearing lips and seeing voices. Nature 264, 746-748. doi: 10.1038/264746a0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Rosenblum, L. D., and Saldaña, H. M. (1996). Ein audiovisueller Test von kinematischen Primitiven für die visuelle Sprachwahrnehmung. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Audiovisuelle Sprachwahrnehmung und Blickverhalten von Erwachsenen mit Asperger-Syndrom. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). Sprache sehen: Visuelle Informationen von Lippenbewegungen modifizieren die Aktivität im menschlichen auditorischen Kortex. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Schwartz, J. L. (2010). Eine Neuanalyse der McGurk-Daten legt nahe, dass die audiovisuelle Fusion bei der Sprachwahrnehmung subjektabhängig ist. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sekiyama, K., and Tohkura, Y. (1991). McGurk-Effekt bei nicht-englischen Hörern: wenige visuelle Effekte bei japanischen Probanden, die japanische Silben mit hoher Hörverständlichkeit hören. J. Acoust. Soc. Am. 90, 1797-1805.

Pubmed Abstract | Pubmed Full Text

Setti, A., Burke, K. E., Kenny, R., and Newell, F. N. (2013). Anfälligkeit für eine multisensorische Sprachillusion bei älteren Menschen wird durch Wahrnehmungsprozesse gesteuert. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Skipper, J. I., van Wassenhove, V.Nusbaum, H. C., und Small, S. L. (2007). Lippen hören und Stimmen sehen: Wie kortikale Bereiche, die die Sprachproduktion unterstützen, die audiovisuelle Sprachwahrnehmung vermitteln. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Tiippana, K., Andersen, T. S., and Sams, M. (2004). Visuelle Aufmerksamkeit moduliert die audiovisuelle Sprachwahrnehmung. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/09541440340000268

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V. (2013). Sprechen durch Ohren und Augen: Schnittstellen zwischen den Sinnen und dem supramodalen Gehirn. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V., Grant, K. W., and Poeppel, D. (2007). Zeitliches Fenster der Integration in der auditiv-visuellen Sprachwahrnehmung. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.