Frontiers | Vad är McGurk-effekten? | Psykologi

McGurk och MacDonald (1976) rapporterade en kraftfull multisensorisk illusion som uppstod vid audiovisuellt tal. De spelade in en röst som artikulerade en konsonant och dubbade den med ett ansikte som artikulerade en annan konsonant. Även om den akustiska talsignalen var väl igenkänd i sig själv, hördes den som en annan konsonant efter dubbning med inkongruent visuellt tal. Illusionen har kallats McGurk-effekten. Den har upprepats många gånger och har gett upphov till ett överflöd av forskning. Anledningen till det stora genomslaget är att detta är en slående demonstration av multisensorisk integration. Den visar att auditiv och visuell information smälter samman till en enhetlig, integrerad uppfattning. Det är ett mycket användbart forskningsverktyg eftersom styrkan i McGurk-effekten kan anses återspegla styrkan i den audiovisuella integrationen.

Här kommer jag att göra två huvudsakliga påståenden om definitionen och tolkningen av McGurk-effekten eftersom de har betydelse för dess användning som ett mått på multisensorisk integration. För det första bör McGurk-effekten definieras som en kategorisk förändring i den auditiva perceptionen som induceras av inkongruent visuellt tal, vilket resulterar i en enda perception av att höra något annat än vad rösten säger. För det andra är det vid tolkningen av McGurk-effekten avgörande att ta hänsyn till uppfattningen av de unisensoriska akustiska och visuella stimuluskomponenterna.

Det finns många varianter av McGurk-effekten (McGurk och MacDonald, 1976; MacDonald och McGurk, 1978)1 . Det mest kända fallet är när dubbning av en röst som säger på ett ansikte som artikulerar resulterar i att man hör . Detta kallas fusionseffekten eftersom perceptet skiljer sig från de akustiska och visuella komponenterna. Många forskare har definierat McGurk-effekten uteslutande som fusionseffekten eftersom integrationen här resulterar i uppfattningen av en tredje konsonant, vilket uppenbarligen sammanfogar information från hörsel och syn (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Denna definition bortser från det faktum att andra inkongruenta audiovisuella stimuli ger upphov till olika typer av uppfattningar. Till exempel hörs en omvänd kombination av dessa konsonanter, AV, som , dvs. de visuella och auditiva komponenterna efter varandra. Det finns andra kombinationer som resulterar i att man hör enligt den visuella komponenten, t.ex. akustik som presenteras med visuell hörs som . Här är mitt första påstående att definitionen av McGurk-effekten bör vara att ett akustiskt yttrande hörs som ett annat yttrande när det presenteras med diskrepant visuell artikulation. Denna definition omfattar alla varianter av illusionen, och den har använts av MacDonald och McGurk (1978) själva, liksom av flera andra (t.ex. Rosenblum och Saldaña, 1996; Brancazio et al., 2003). De olika varianterna av McGurk-effekten representerar resultatet av audiovisuell integration. När integration äger rum resulterar den i en enhetlig uppfattning, utan tillgång till de enskilda komponenter som bidrog till uppfattningen. När McGurk-effekten inträffar har observatören således den subjektiva upplevelsen av att höra ett visst yttrande, även om ett annat yttrande presenteras akustiskt.

En utmaning med denna tolkning av McGurk-effekten är att det är omöjligt att vara säker på att de svar som observatören ger motsvarar de faktiska percepterna. Den verkliga McGurk-effekten uppstår på grund av multisensorisk integration, vilket resulterar i en förändrad auditiv uppfattning. Om integrering inte sker kan dock observatören uppfatta komponenterna separat och kan välja att reagera antingen enligt vad han hörde eller enligt vad han såg. Detta är en av anledningarna till att fusionseffekten är så attraktiv: Om observatören rapporterar en uppfattning som skiljer sig från båda stimuluskomponenterna verkar han inte förlita sig enbart på någon av modaliteterna, utan i stället smälter han verkligen samman informationen från båda. Detta tillvägagångssätt garanterar dock inte ett rakt mått på integration mer än de andra varianterna av illusionen, vilket argumenteras nedan.

Det andra huvudpåståendet här är att man måste ta hänsyn till uppfattningen av de akustiska och visuella stimuluskomponenterna när man tolkar McGurk-effekten. Denna fråga har tidigare utvecklats i det omfattande arbetet av Massaro och kollegor (Massaro, 1998) och andra (Sekiyama och Tohkura, 1991; Green och Norrix, 1997; Jiang och Bernstein, 2011). Den är viktig eftersom identifieringsnoggrannheten för unisensoriska komponenter återspeglas i den audiovisuella taluppfattningen.

I allmänhet antas McGurk-effektens styrka öka när andelen svar enligt den akustiska komponenten minskar och/eller när andelen fusionssvar ökar. Det vill säga, McGurk-effekten för stimulus AV anses vara starkare när färre B-svar och/eller fler D-svar ges. Detta är ofta ett adekvat sätt att mäta McGurk-effektens styrka – om man tänker på att det implicit förutsätter att uppfattningen av de akustiska och visuella komponenterna är korrekt (eller åtminstone konstant mellan de förhållanden som jämförs). Det kan dock leda till felaktiga slutsatser om detta antagande inte håller.

Fusionseffekten är ett utmärkt exempel på detta förbehåll. Den har tolkats som att akustisk och visuell information integreras för att producera ett nytt, mellanliggande percept. När AV till exempel hörs som , anses perceptet uppstå på grund av fusion av de egenskaper (för artikulationsplatsen) som tillhandahålls via audition (bilabial) och syn (velar), så att en annan, mellanliggande konsonant (alveolär) uppfattas (van Wassenhove, 2013). Men redan McGurk och MacDonald (1976) skrev själva att ”lip movements for are frequently misread as ,” även om de tyvärr inte mätte talläsningsprestanda. Utelämnandet av det unisensoriska visuella villkoret i den ursprungliga studien är en faktor som har bidragit till fusionseffektens starka status som den enda riktiga McGurk-effekten, som återspeglar verklig integration. Ändå, om visuell förväxlas med , är det inte alls förvånande eller speciellt om AV uppfattas som .

För att visa bidraget från de unisensoriska komponenterna mer explicit tar jag två exempel från min forskning, där stimuli av fusionstyp gav upphov till olika uppfattningar beroende på hur tydlig den visuella komponenten var. I en studie hördes ett McGurk-stimulans AV huvudsakligen som en fusion (Tiippana et al., 2004). Detta återspeglade det faktum att i en identifieringsuppgift som endast gällde det visuella förväxlades det visuella med (42 % K-svar och 45 % T-svar till det visuella ). I en annan studie hördes ett McGurk-stimulans AV huvudsakligen som , och detta kunde spåras till det faktum att det visuella i en identifieringsuppgift som endast gällde det visuella tydligt kunde särskiljas från , och därför erkändes mycket noggrant (100 % rätt hos typiska vuxna; Saalasti et al., 2012; observera dock det avvikande beteendet hos personer med Aspergers syndrom). Även om McGurk-stimuli var av en fusionstyp i båda studierna skiljde sig alltså uppfattningen av dem åt, vilket till stor del berodde på de visuella komponenternas tydlighet. Dessa resultat understryker vikten av att känna till de perceptuella egenskaperna hos de unisensoriska stimuli innan man drar slutsatser om multisensorisk integration.

Exakt hur man ska ta hänsyn till egenskaperna hos de unisensoriska komponenterna vid multisensorisk uppfattning av tal ligger utanför denna uppsats. För att ta itu med denna fråga i detalj krävs noggrant utformade experimentella studier (Bertelson et al., 2003; Alsius et al., 2005), beräkningsmodellering (Massaro, 1998; Schwartz, 2010) och undersökning av de underliggande hjärnmekanismerna (Sams et al., 1991; Skipper et al., 2007). Den viktigaste riktlinjen är dock att unisensorisk perception av stimuluskomponenter återspeglas i multisensorisk perception av helheten (Ernst och Bülthoff, 2004).

Under experiment, när uppgiften är att rapportera vad som hördes, rapporterar observatören det medvetna auditiva perceptet som framkallas av det audiovisuella stimuluset. Om det inte finns någon multisensorisk integration eller interaktion är perceptet identiskt för det audiovisuella stimuluset och den auditiva komponenten som presenteras ensam. Om det finns audiovisuell integration ändras den medvetna auditiva uppfattningen. I vilken utsträckning visuell input påverkar perceptet beror på hur sammanhängande och tillförlitlig information varje modalitet tillhandahåller. Koherent information integreras och viktas t.ex. enligt tillförlitligheten hos varje modalitet, vilket återspeglas i unisensorisk diskriminerbarhet.

Denna perceptuella process är densamma för audiovisuellt tal – vare sig det är naturligt, kongruent audiovisuellt tal eller konstgjorda, inkongruenta McGurk-talsstimuli. Resultatet är den medvetna auditiva uppfattningen. Beroende på den relativa viktningen av hörsel och syn kan resultatet för McGurk-stimuli sträcka sig från hörsel enligt den akustiska komponenten (när hörseln är mer tillförlitlig än synen) till fusions- och kombinationsuppfattningar (när båda modaliteterna är informativa i viss utsträckning) till hörsel enligt den visuella komponenten (när synen är mer tillförlitlig än hörseln). Kongruent audiovisuellt tal behandlas inte annorlunda och visar visuellt inflytande när den auditiva tillförlitligheten minskar. De olika varianterna av McGurk-effekten är alla resultat av samma perceptuella process och återspeglar audiovisuell integration.

McGurk-effekten är ett utmärkt verktyg för att undersöka multisensorisk integration vid taluppfattning. De viktigaste budskapen i detta yttrande är för det första att McGurk-effekten bör definieras som en förändring i den auditiva uppfattningen på grund av inkongruent visuellt tal, så att observatörerna hör ett annat talljud än det som rösten yttrade, och för det andra att de perceptuella egenskaperna hos de akustiska och visuella stimuluskomponenterna bör beaktas när McGurk-effekten tolkas som att den avspeglar integration.

Intressekonfliktförklaring

Författaren förklarar att forskningen utfördes i avsaknad av kommersiella eller ekonomiska relationer som skulle kunna tolkas som en potentiell intressekonflikt.

Acknowledgment

Denna forskning finansierades av ett stipendium från Helsingfors universitet.

Fotnoter

1. ^I hela denna uppsats nämns endast några representativa referenser som exempel på den omfattande litteraturen om varje ämne.

Alsius, A., Navarra, J., Campbell, R. och Soto-Faraco, S. (2005). Audiovisuell integration av tal vacklar vid höga krav på uppmärksamhet. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046