McGurk e MacDonald (1976) hanno riportato una potente illusione multisensoriale che si verifica con il discorso audiovisivo. Hanno registrato una voce che articola una consonante e l’hanno doppiata con una faccia che articola un’altra consonante. Anche se il segnale acustico del discorso era ben riconosciuto da solo, veniva sentito come un’altra consonante dopo il doppiaggio con un discorso visivo incongruente. L’illusione è stata chiamata effetto McGurk. È stata replicata molte volte e ha scatenato un’abbondanza di ricerche. La ragione del grande impatto è che si tratta di una dimostrazione impressionante di integrazione multisensoriale. Mostra che le informazioni uditive e visive si fondono in una percezione unificata e integrata. È uno strumento di ricerca molto utile poiché la forza dell’effetto McGurk può essere presa per riflettere la forza dell’integrazione audiovisiva.
Qui farò due affermazioni principali riguardo la definizione e l’interpretazione dell’effetto McGurk poiché sono rilevanti per il suo uso come misura dell’integrazione multisensoriale. In primo luogo, l’effetto McGurk dovrebbe essere definito come un cambiamento categorico nella percezione uditiva indotta da un discorso visivo incongruente, che risulta in una singola percezione di sentire qualcosa di diverso da ciò che la voce sta dicendo. In secondo luogo, quando si interpreta l’effetto McGurk, è fondamentale prendere in considerazione la percezione delle componenti unisensoriali dello stimolo acustico e visivo.
Ci sono molte varianti dell’effetto McGurk (McGurk e MacDonald, 1976; MacDonald e McGurk, 1978)1. Il caso più noto è quello in cui doppiando una voce che dice su un volto che si articola si sente . Questo è chiamato effetto di fusione poiché la percezione differisce dalle componenti acustiche e visive. Molti ricercatori hanno definito l’effetto McGurk esclusivamente come effetto di fusione perché in questo caso l’integrazione porta alla percezione di una terza consonante, ovviamente fondendo le informazioni provenienti dall’audizione e dalla visione (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Questa definizione ignora il fatto che altri stimoli audiovisivi incongruenti producono diversi tipi di percezioni. Per esempio, una combinazione inversa di queste consonanti, AV, è sentita come , cioè le componenti visive e uditive una dopo l’altra. Ci sono altri accoppiamenti, che risultano nell’ascolto secondo la componente visiva, per esempio, l’acustico presentato con il visivo è sentito come . Qui la mia prima affermazione è che la definizione dell’effetto McGurk dovrebbe essere che un enunciato acustico è sentito come un altro enunciato quando presentato con un’articolazione visiva discrepante. Questa definizione include tutte le varianti dell’illusione, ed è stata usata dagli stessi MacDonald e McGurk (1978), così come da molti altri (per esempio, Rosenblum e Saldaña, 1996; Brancazio et al., 2003). Le diverse varianti dell’effetto McGurk rappresentano il risultato dell’integrazione audiovisiva. Quando l’integrazione ha luogo, risulta in una percezione unificata, senza accesso alle singole componenti che hanno contribuito alla percezione. Così, quando si verifica l’effetto McGurk, l’osservatore ha l’esperienza soggettiva di sentire un certo enunciato, anche se un altro enunciato è presentato acusticamente.
Una sfida con questa interpretazione dell’effetto McGurk è che è impossibile essere certi che le risposte dell’osservatore corrispondano alle percezioni reali. Il vero effetto McGurk si verifica a causa dell’integrazione multisensoriale, con conseguente alterazione della percezione uditiva. Tuttavia, se l’integrazione non avviene, l’osservatore può percepire le componenti separatamente e può scegliere di rispondere o secondo ciò che ha sentito o secondo ciò che ha visto. Questo è uno dei motivi per cui l’effetto di fusione è così attraente: Se l’osservatore riporta una percezione che differisce da entrambe le componenti dello stimolo, non sembra fare affidamento solo su una delle due modalità, ma fonde realmente le informazioni di entrambe. Tuttavia, questo approccio non garantisce una misura diretta dell’integrazione più delle altre varianti dell’illusione, come si argomenta più avanti.
La seconda affermazione principale qui è che la percezione delle componenti dello stimolo acustico e visivo deve essere presa in considerazione quando si interpreta l’effetto McGurk. Questa questione è stata elaborata in precedenza nell’ampio lavoro di Massaro e colleghi (Massaro, 1998) e altri (Sekiyama e Tohkura, 1991; Green e Norrix, 1997; Jiang e Bernstein, 2011). È importante perché l’accuratezza dell’identificazione delle componenti unisensoriali si riflette nella percezione audiovisiva del discorso.
In generale, si ritiene che la forza dell’effetto McGurk aumenti quando la proporzione delle risposte secondo la componente acustica diminuisce e/o quando la proporzione delle risposte di fusione aumenta. Cioè, l’effetto McGurk per lo stimolo AV è considerato più forte quando vengono date meno risposte B e/o più risposte D. Questo è spesso un modo adeguato per misurare la forza dell’effetto McGurk – se si tiene presente che presuppone implicitamente che la percezione delle componenti acustiche e visive sia accurata (o almeno costante nelle condizioni che vengono confrontate). Tuttavia, può portare a conclusioni errate se questo presupposto non regge.
L’effetto di fusione fornisce un primo esempio di questo avvertimento. È stato interpretato nel senso che le informazioni acustiche e visive sono integrate per produrre una nuova percezione intermedia. Per esempio, quando AV è sentito come , si pensa che la percezione emerga a causa della fusione delle caratteristiche (per il luogo di articolazione) fornite tramite l’audizione (bilabiale) e la visione (velare), in modo che una consonante diversa, intermedia (alveolare) sia percepita (van Wassenhove, 2013). Tuttavia, già McGurk e MacDonald (1976) hanno scritto che “i movimenti delle labbra per sono frequentemente mal letti come ,” anche se non hanno misurato le prestazioni di lettura del parlato, purtroppo. L’omissione della condizione visiva unisensoriale nello studio originale è un fattore che ha contribuito al forte status dell’effetto di fusione come l’unico vero effetto McGurk, che riflette la vera integrazione. Ancora, se il visivo è confuso con , non è affatto sorprendente o speciale se AV è percepito come .
Per dimostrare più esplicitamente il contributo delle componenti unisensoriali, prenderò due esempi della mia ricerca, in cui gli stimoli di tipo fusione hanno prodotto percezioni diverse a seconda della chiarezza della componente visiva. In uno studio, uno stimolo McGurk AV è stato sentito principalmente come una fusione (Tiippana et al., 2004). Questo rifletteva il fatto che in un compito di identificazione solo visiva, il visivo era confuso con (42% di risposte K e 45% di risposte T al visivo). In un altro studio, uno stimolo McGurk AV è stato principalmente sentito come , e questo potrebbe essere ricondotto al fatto che in un compito di identificazione solo visivo, il visivo era chiaramente distinguibile da , e quindi riconosciuto molto accuratamente (100% corretto negli adulti tipici; Saalasti et al., 2012; ma si noti il comportamento deviante degli individui con sindrome di Asperger). Così, anche se gli stimoli McGurk erano di un tipo di fusione in entrambi gli studi, la loro percezione differiva in gran parte a seconda della chiarezza delle componenti visive. Questi risultati sottolineano l’importanza di conoscere le qualità percettive degli stimoli unisensoriali prima di trarre conclusioni sull’integrazione multisensoriale.
Esattamente come prendere in considerazione le proprietà delle componenti unisensoriali nella percezione multisensoriale del discorso va oltre questo articolo. Affrontare questo problema in dettaglio richiede studi sperimentali attentamente progettati (Bertelson et al., 2003; Alsius et al., 2005), modellazione computazionale (Massaro, 1998; Schwartz, 2010), e l’indagine dei meccanismi cerebrali sottostanti (Sams et al., 1991; Skipper et al., 2007). Tuttavia, la linea guida principale è che la percezione unisensoriale delle componenti dello stimolo si riflette nella percezione multisensoriale dell’insieme (Ernst e Bülthoff, 2004).
Negli esperimenti, quando il compito è quello di riferire ciò che è stato sentito, l’osservatore riporta la percezione uditiva cosciente evocata dallo stimolo audiovisivo. Se non c’è integrazione o interazione multisensoriale, la percezione è identica per lo stimolo audiovisivo e la componente uditiva presentata da sola. Se c’è integrazione audiovisiva, la percezione uditiva cosciente cambia. In che misura l’input visivo influenza la percezione dipende da quanto coerente e affidabile è l’informazione fornita da ciascuna modalità. Le informazioni coerenti sono integrate e ponderate, ad esempio, in base all’affidabilità di ciascuna modalità, che si riflette nella discriminabilità unisensoriale.
Questo processo percettivo è lo stesso per il discorso audiovisivo, che si tratti di un discorso audiovisivo naturale e congruente o di stimoli di McGurk artificiali e incongruenti. Il risultato è la percezione uditiva cosciente. A seconda del peso relativo dell’udito e della vista, il risultato per gli stimoli di McGurk può variare dall’ascolto secondo la componente acustica (quando l’udito è più affidabile della vista) alla fusione e alla combinazione di percezioni (quando entrambe le modalità sono in qualche misura informative) all’ascolto secondo la componente visiva (quando la vista è più affidabile dell’udito). Il discorso audiovisivo congruente non viene trattato diversamente, mostrando un’influenza visiva quando l’affidabilità uditiva diminuisce. Le diverse varianti dell’effetto McGurk sono tutti risultati di questo stesso processo percettivo e riflettono l’integrazione audiovisiva.
L’effetto McGurk è uno strumento eccellente per studiare l’integrazione multisensoriale nella percezione del discorso. I messaggi principali di questo documento di opinione sono, in primo luogo, che l’effetto McGurk dovrebbe essere definito come un cambiamento nella percezione uditiva a causa di un discorso visivo incongruente, in modo che gli osservatori sentano un altro suono del discorso rispetto a quello che la voce ha pronunciato, e in secondo luogo, che le proprietà percettive delle componenti dello stimolo acustico e visivo dovrebbero essere prese in considerazione quando si interpreta l’effetto McGurk come riflesso di integrazione.
Dichiarazione di conflitto di interessi
L’autore dichiara che la ricerca è stata condotta in assenza di relazioni commerciali o finanziarie che potrebbero essere interpretate come un potenziale conflitto di interessi.
Riconoscimento
Questa ricerca è stata finanziata da una sovvenzione dell’Università di Helsinki.
Note a piè di pagina
1. ^In tutto questo documento sono citati solo alcuni riferimenti rappresentativi come esempi della vasta letteratura su ogni argomento.
Alsius, A., Navarra, J., Campbell, R., and Soto-Faraco, S. (2005). L’integrazione audiovisiva del discorso vacilla sotto elevate richieste di attenzione. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Bertelson, P., Vroomen, J., and De Gelder, B. (2003). Ricalibrazione visiva dell’identificazione uditiva del discorso: un effetto collaterale di McGurk. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Brancazio, L., Miller, J. L., and Paré, M. A. (2003). Influenze visive sulla struttura interna delle categorie fonetiche. Percept. Psicofisica. 65, 591-601. doi: 10.3758/BF03194585
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Ernst, M. O., and Bülthoff, H. H. (2004). Fusione dei sensi in una percezione robusta. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Green, K. P., and Norrix, L. W. (1997). Spunti acustici per il luogo di articolazione e l’effetto McGurk: il ruolo delle esplosioni di rilascio, dell’aspirazione e delle transizioni di formanti. J. Speech Lang. Hear. Res. 40, 646-665.
Pubmed Abstract | Pubmed Full Text
Jiang, J., and Bernstein, L. E. (2011). Psicofisica del McGurk e altri effetti di integrazione audiovisiva del discorso. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Keil, J., Muller, N., Ihssen, N., e Weisz, N. (2012). Sulla variabilità dell’effetto McGurk: l’integrazione audiovisiva dipende dagli stati cerebrali prestimolo. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
MacDonald, J., and McGurk, H. (1978). Influenze visive sui processi di percezione del discorso. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Massaro, D. W. (1998). Percepire i volti parlanti. Cambridge, MA: MIT Press.
McGurk, H., and MacDonald, J. (1976). Sentire le labbra e vedere le voci. Nature 264, 746-748. doi: 10.1038/264746a0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Rosenblum, L. D., and Saldaña, H. M. (1996). Un test audiovisivo di primitive cinematiche per la percezione visiva del discorso. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Percezione audiovisiva del discorso e comportamento dello sguardo degli occhi di adulti con la sindrome di Asperger. J. Autism Dev. Disordine. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. Vedere il discorso: le informazioni visive dai movimenti delle labbra modificano l’attività nella corteccia uditiva umana. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Schwartz, J. L. (2010). Una rianalisi dei dati McGurk suggerisce che la fusione audiovisiva nella percezione del discorso dipende dal soggetto. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sekiyama, K., e Tohkura, Y. (1991). Effetto McGurk in ascoltatori non inglesi: pochi effetti visivi per soggetti giapponesi che ascoltano sillabe giapponesi di alta intelligibilità uditiva. J. Acoust. Soc. Am. 90, 1797-1805.
Pubmed Abstract | Pubmed Full Text
Setti, A., Burke, K. E., Kenny, R., e Newell, F. N. (2013). Suscettibilità a un illusione discorso multisensoriale in persone anziane è guidato da processi percettivi. Fronte. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Skipper, J. I., van Wassenhove, V., Nusbaum, H. C., e Small, S. L. (2007). Sentire le labbra e vedere le voci: come le aree corticali che supportano la produzione del discorso mediano la percezione audiovisiva del discorso. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Tiippana, K., Andersen, T. S., and Sams, M. (2004). L’attenzione visiva modula la percezione audiovisiva del discorso. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/09541440340000268
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V. (2013). Parlare attraverso le orecchie e gli occhi: l’interfacciamento dei sensi con il cervello sopramodale. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V., Grant, K. W., and Poeppel, D. (2007). Finestra temporale di integrazione nella percezione uditiva-visiva del discorso. Neuropsicologia 45, 598-607. doi: 10.1016/j.neuropsicologia.2006.01.001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text