Frontiers in Psychology

McGurk og MacDonald (1976) rapporterede om en kraftig multisensorisk illusion, der opstod i forbindelse med audiovisuel tale. De optog en stemme, der artikulerede en konsonant, og eftersynkroniserede den med et ansigt, der artikulerede en anden konsonant. Selv om det akustiske talesignal blev genkendt godt alene, blev det hørt som en anden konsonant efter efter eftersynkronisering med inkongruent visuel tale. Denne illusion er blevet kaldt McGurk-effekten. Den er blevet gentaget mange gange, og den har udløst en overflod af forskning. Årsagen til den store effekt er, at der er tale om en slående demonstration af multisensorisk integration. Den viser, at auditive og visuelle oplysninger smelter sammen til en samlet, integreret opfattelse. Det er et meget nyttigt forskningsværktøj, da styrken af McGurk-effekten kan tages som udtryk for styrken af den audiovisuelle integration.

Her vil jeg fremsætte to hovedpåstande vedrørende definitionen og fortolkningen af McGurk-effekten, da de har relevans for dens anvendelse som et mål for multisensorisk integration. For det første bør McGurk-effekten defineres som en kategorisk ændring i den auditive opfattelse, der induceres af inkongruent visuel tale, hvilket resulterer i en enkelt opfattelse af at høre noget andet end det, stemmen siger. For det andet er det ved fortolkningen af McGurk-effekten afgørende at tage hensyn til opfattelsen af de unisensoriske akustiske og visuelle stimuluskomponenter.

Der findes mange varianter af McGurk-effekten (McGurk og MacDonald, 1976; MacDonald og McGurk, 1978)1. Det bedst kendte tilfælde er, når eftersynkronisering af en stemme, der siger på et ansigt, der artikulerer, resulterer i, at man hører . Dette kaldes fusionseffekten, da perceptet adskiller sig fra de akustiske og visuelle komponenter. Mange forskere har defineret McGurk-effekten udelukkende som fusionseffekten, fordi integrationen her resulterer i opfattelsen af en tredje konsonant, der tydeligvis fusionerer information fra hørelse og syn (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Denne definition ignorerer det faktum, at andre inkongruente audiovisuelle stimuli producerer forskellige typer percepter. For eksempel høres en omvendt kombination af disse konsonanter, AV, som , dvs. de visuelle og auditive komponenter efter hinanden. Der er andre pardannelser, som resulterer i hørelse i henhold til den visuelle komponent, f.eks. akustiske præsenteret med visuelle høres som . Her er min første påstand, at definitionen af McGurk-effekten bør være, at en akustisk ytring høres som en anden ytring, når den præsenteres med diskrepant visuel artikulation. Denne definition omfatter alle varianter af illusionen, og den er blevet anvendt af MacDonald og McGurk (1978) selv samt af flere andre (f.eks. Rosenblum og Saldaña, 1996; Brancazio et al., 2003). De forskellige varianter af McGurk-effekten repræsenterer resultatet af audiovisuel integration. Når integrationen finder sted, resulterer den i en samlet opfattelse, uden adgang til de individuelle komponenter, der bidrog til opfattelsen. Når McGurk-effekten opstår, har observatøren således den subjektive oplevelse af at høre en bestemt ytring, selv om en anden ytring præsenteres akustisk.

En udfordring ved denne fortolkning af McGurk-effekten er, at det er umuligt at være sikker på, at de svar, som observatøren giver, svarer til de faktiske percepter. Den virkelige McGurk-effekt opstår på grund af multisensorisk integration, hvilket resulterer i en ændret auditiv opfattelse. Hvis der imidlertid ikke sker integration, kan observatøren opfatte komponenterne hver for sig og kan vælge at reagere enten i henhold til det, han hørte, eller i henhold til det, han så. Dette er en af grundene til, at fusionseffekten er så attraktiv: Hvis observatøren rapporterer en opfattelse, der adskiller sig fra begge stimuluskomponenter, synes han ikke at være afhængig af en af modaliteterne alene, men i stedet virkelig at fusionere oplysningerne fra begge. Denne tilgang garanterer imidlertid ikke en ligefrem måling af integration mere end de andre varianter af illusionen, som det argumenteres nedenfor.

Den anden hovedpåstand her er, at opfattelsen af de akustiske og visuelle stimuluskomponenter skal tages i betragtning ved fortolkningen af McGurk-effekten. Dette spørgsmål er tidligere blevet uddybet i det omfattende arbejde, der er udført af Massaro og kolleger (Massaro, 1998) og andre (Sekiyama og Tohkura, 1991; Green og Norrix, 1997; Jiang og Bernstein, 2011). Den er vigtig, fordi identifikationsnøjagtigheden af unisensoriske komponenter afspejles i den audiovisuelle taleopfattelse.

Generelt antages styrken af McGurk-effekten at stige, når andelen af svar i henhold til den akustiske komponent falder og/eller når andelen af fusionsresponser stiger. Det vil sige, at McGurk-effekten for stimulus AV anses for at være stærkere, når der gives færre B-svar og/eller flere D-svar. Dette er ofte en passende måde at måle styrken af McGurk-effekten på – hvis man husker på, at det implicit forudsætter, at opfattelsen af de akustiske og visuelle komponenter er nøjagtig (eller i det mindste konstant på tværs af de betingelser, der sammenlignes). Det kan imidlertid føre til fejlagtige konklusioner, hvis denne antagelse ikke holder.

Fusionseffekten giver et godt eksempel på dette forbehold. Den er blevet fortolket således, at akustisk og visuel information integreres for at frembringe et nyt, mellemliggende percept. Når AV f.eks. høres som , menes perceptet at opstå på grund af fusion af de egenskaber (for artikulationsstedet), der leveres via hørelsen (bilabial) og synet (velar), således at der opfattes en anden, mellemliggende konsonant (alveolær) (van Wassenhove, 2013). Men allerede McGurk og MacDonald (1976) skrev selv, at “lip movements for are frequently misread as ,” selv om de desværre ikke målte talelæsepræstationer. Udeladelsen af den unisensoriske visuelle betingelse i den oprindelige undersøgelse er en faktor, der har bidraget til den stærke status for fusionseffekten som den eneste virkelige McGurk-effekt, der afspejler ægte integration. Alligevel er det, hvis det visuelle forveksles med , slet ikke overraskende eller specielt, hvis AV opfattes som .

For at demonstrere bidraget fra de unisensoriske komponenter mere eksplicit vil jeg tage to eksempler fra min forskning, hvor stimuli af fusionstypen producerede forskellige opfattelser afhængigt af klarheden af den visuelle komponent. I en undersøgelse blev en McGurk-stimulus AV hovedsageligt hørt som en fusion (Tiippana et al., 2004). Dette afspejlede det faktum, at i en kun visuel identifikationsopgave blev det visuelle forvekslet med (42% K-reaktioner og 45% T-reaktioner på det visuelle ). I en anden undersøgelse blev en McGurk-stimulus AV hovedsageligt hørt som , og dette kunne spores tilbage til det faktum, at i en kun-visuel identifikationsopgave kunne det visuelle klart skelnes fra , og dermed genkendes meget præcist (100 % korrekt hos typiske voksne; Saalasti et al., 2012; men bemærk den afvigende adfærd hos personer med Aspergers syndrom). Således, selv om McGurk-stimuliene var af en fusionstype i begge undersøgelser, var deres opfattelse forskellig, hvilket i høj grad afhænger af de visuelle komponenters klarhed. Disse resultater understreger vigtigheden af at kende de perceptuelle kvaliteter af de unisensoriske stimuli, før man drager konklusioner om multisensorisk integration.

Den præcise måde at tage hensyn til egenskaberne af de unisensoriske komponenter i multisensorisk opfattelse af tale ligger uden for denne artikel. At behandle dette spørgsmål i detaljer kræver omhyggeligt udformede eksperimentelle undersøgelser (Bertelson et al., 2003; Alsius et al., 2005), beregningsmæssig modellering (Massaro, 1998; Schwartz, 2010) og undersøgelse af de underliggende hjernemekanismer (Sams et al., 1991; Skipper et al., 2007). Den vigtigste retningslinje er imidlertid, at unisensorisk perception af stimuluskomponenter afspejles i multisensorisk perception af helheden (Ernst og Bülthoff, 2004).

Ved eksperimenter, når opgaven er at rapportere, hvad der blev hørt, rapporterer observatøren den bevidste auditive perception, der fremkaldes af den audiovisuelle stimulus. Hvis der ikke er nogen multisensorisk integration eller interaktion, er perceptet identisk for den audiovisuelle stimulus og den auditive komponent, der præsenteres alene. Hvis der er audiovisuel integration, ændres den bevidste auditive opfattelse. I hvilket omfang det visuelle input påvirker opfattelsen afhænger af, hvor sammenhængende og pålidelige oplysninger de enkelte modaliteter giver. Kohærente oplysninger integreres og vægtes f.eks. i henhold til pålideligheden af hver modalitet, hvilket afspejles i unisensorisk diskriminabilitet.

Denne perceptuelle proces er den samme for audiovisuel tale – hvad enten der er tale om naturlig, kongruent audiovisuel tale eller kunstige, inkongruente McGurk-talestimuli. Resultatet er den bevidste auditive percept. Afhængigt af den relative vægtning af hørelse og syn kan resultatet for McGurk-stimuli variere fra hørelse i henhold til den akustiske komponent (når hørelse er mere pålidelig end synet) til fusions- og kombinationsopfattelser (når begge modaliteter er informative i et vist omfang) til hørelse i henhold til den visuelle komponent (når synet er mere pålideligt end hørelse). Kongruent audiovisuel tale behandles ikke anderledes, idet den viser visuel indflydelse, når den auditive pålidelighed aftager. De forskellige varianter af McGurk-effekten er alle resultater af denne samme perceptuelle proces og afspejler audiovisuel integration.

McGurk-effekten er et fremragende redskab til at undersøge multisensorisk integration i taleopfattelse. Hovedbudskaberne i denne udtalelse er for det første, at McGurk-effekten bør defineres som en ændring i den auditive opfattelse som følge af inkongruent visuel tale, således at observatørerne hører en anden talelyd end den, stemmen udtalte, og for det andet, at der bør tages hensyn til de perceptuelle egenskaber ved de akustiske og visuelle stimuluskomponenter, når McGurk-effekten fortolkes som afspejlende integration.

Interessekonflikterklæring

Forfatteren erklærer, at forskningen blev udført uden kommercielle eller finansielle relationer, der kunne opfattes som en potentiel interessekonflikt.

Akkreditering

Denne forskning blev finansieret af et tilskud fra Helsinki Universitet.

Fodnoter

1. ^I hele denne artikel er kun nogle repræsentative referencer nævnt som eksempler på den omfattende litteratur om hvert emne.

Alsius, A., Navarra, J., Campbell, R. og Soto-Faraco, S. (2005). Audiovisuel integration af tale halter under høje opmærksomhedskrav. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Bertelson, P., Vroomen, J., og De Gelder, B. (2003). Visuel rekalibrering af auditiv taleidentifikation: en McGurk eftervirkning. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Brancazio, L., Miller, J. L., og Paré, M. A. (2003). Visuelle påvirkninger på den interne struktur af fonetiske kategorier. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Ernst, M. O., og Bülthoff, H. H. H. (2004). Sammensmeltning af sanserne til en robust opfattelse. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Green, K. P., og Norrix, L. W. (1997). Akustiske signaler om artikulationssted og McGurk-effekten: den rolle, som release bursts, aspiration og formantovergange spiller. J. Speech Lang. Hear. Res. 40, 646-665.

Pubmed Abstract | Pubmed Full Text

Jiang, J., og Bernstein, L. E. (2011). Psykofysik af McGurk og andre audiovisuelle taleintegrationseffekter. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). Om variabiliteten af McGurk-effekten: Audiovisuel integration afhænger af prætimulus hjernetilstande. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

MacDonald, J., og McGurk, H. (1978). Visuelle påvirkninger på taleopfattelsesprocesser. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Massaro, D. W. (1998). Perceiving Talking Faces (Opfattelse af talende ansigter). Cambridge, MA: MIT Press.

McGurk, H., og MacDonald, J. (1976). At høre læber og se stemmer. Nature 264, 746-748. doi: 10.1038/26474646a0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Rosenblum, L. D., og Saldaña, H. M. (1996). En audiovisuel test af kinematiske primitiver til visuel taleopfattelse. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Audiovisuel taleopfattelse og øjenbliksadfærd hos voksne med Aspergers syndrom. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). At se tale: visuel information fra læbebevægelser ændrer aktiviteten i den menneskelige auditive cortex. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Schwartz, J. L. (2010). En reanalyse af McGurk-data tyder på, at audiovisuel fusion i taleopfattelse er emneafhængig. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sekiyama, K., og Tohkura, Y. (1991). McGurk-effekt hos ikke-engelske lyttere: få visuelle effekter for japanske forsøgspersoner, der hører japanske stavelser med høj auditiv forståelighed. J. Acoust. Soc. Am. 90, 1797-1805.

Pubmed Abstract | Pubmed Full Text

Setti, A., Burke, K. E., Kenny, R., og Newell, F. N. (2013). Modtagelighed for en multisensorisk taleillusion hos ældre personer er drevet af perceptuelle processer. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Skipper, J. I., van Wassenhove, V., Nusbaum, H. C., og Small, S. L. (2007). At høre læber og se stemmer: hvordan kortikale områder, der understøtter taleproduktion, formidler audiovisuel taleopfattelse. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Tiippana, K., Andersen, T. S., og Sams, M. (2004). Visuel opmærksomhed modulerer audiovisuel taleopfattelse. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/0954144040340000268

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V. (2013). Tale gennem ører og øjne: grænseflade mellem sanserne og den supramodale hjerne. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V., Grant, K. W., og Poeppel, D. (2007). Temporal vindue for integration i auditiv-visuel taleopfattelse. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001

Pubmed Abstract | Pubmed Full Text | Pubmed Full Text | CrossRef Full Text

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.