McGurk y MacDonald (1976) informaron de una potente ilusión multisensorial que se produce con el habla audiovisual. Grabaron una voz articulando una consonante y la doblaron con una cara articulando otra consonante. Aunque la señal acústica del habla se reconocía bien por sí sola, se oía como otra consonante tras el doblaje con el habla visual incongruente. La ilusión se ha denominado efecto McGurk. Se ha reproducido muchas veces y ha suscitado una gran cantidad de investigaciones. La razón de su gran repercusión es que se trata de una sorprendente demostración de integración multisensorial. Demuestra que la información auditiva y visual se fusiona en una percepción unificada e integrada. Es una herramienta de investigación muy útil, ya que la fuerza del efecto McGurk puede considerarse un reflejo de la fuerza de la integración audiovisual.
Aquí haré dos afirmaciones principales sobre la definición e interpretación del efecto McGurk, ya que son relevantes para su uso como medida de la integración multisensorial. En primer lugar, el efecto McGurk debe definirse como un cambio categórico en la percepción auditiva inducido por un discurso visual incongruente, que da lugar a una única percepción de oír algo distinto de lo que dice la voz. En segundo lugar, al interpretar el efecto McGurk, es crucial tener en cuenta la percepción de los componentes unisensoriales del estímulo acústico y visual.
Hay muchas variantes del efecto McGurk (McGurk y MacDonald, 1976; MacDonald y McGurk, 1978)1. El caso más conocido es cuando el doblaje de una voz diciendo en una cara articulada resulta en la audición . A esto se le llama efecto de fusión, ya que el percepto difiere de los componentes acústicos y visuales. Muchos investigadores han definido el efecto McGurk exclusivamente como efecto de fusión porque en este caso la integración da lugar a la percepción de una tercera consonante, fusionando obviamente la información procedente de la audición y la visión (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Esta definición ignora el hecho de que otros estímulos audiovisuales incongruentes producen diferentes tipos de percepciones. Por ejemplo, una combinación inversa de estas consonantes, AV, se escucha como , es decir, los componentes visuales y auditivos uno tras otro. Hay otros emparejamientos, que dan lugar a la audición según el componente visual, por ejemplo, el acústico presentado con el visual se oye como . Aquí mi primera afirmación es que la definición del efecto McGurk debería ser que un enunciado acústico se oye como otro enunciado cuando se presenta con una articulación visual discrepante. Esta definición incluye todas las variantes de la ilusión, y ha sido utilizada por los propios MacDonald y McGurk (1978), así como por varios otros (por ejemplo, Rosenblum y Saldaña, 1996; Brancazio et al., 2003). Las distintas variantes del efecto McGurk representan el resultado de la integración audiovisual. Cuando se produce la integración, el resultado es un concepto unificado, sin acceso a los componentes individuales que han contribuido a la percepción. Por lo tanto, cuando se produce el efecto McGurk, el observador tiene la experiencia subjetiva de oír un determinado enunciado, aunque se presente acústicamente otro enunciado.
Un problema con esta interpretación del efecto McGurk es que es imposible estar seguro de que las respuestas que da el observador corresponden a las percepciones reales. El efecto McGurk real surge debido a la integración multisensorial, lo que da lugar a una percepción auditiva alterada. Sin embargo, si no se produce la integración, el observador puede percibir los componentes por separado y puede elegir responder según lo que ha oído o según lo que ha visto. Esta es una de las razones por las que el efecto de fusión es tan atractivo: Si el observador informa de una percepción que difiere de ambos componentes del estímulo, parece que no se basa únicamente en ninguna de las dos modalidades, sino que realmente fusiona la información de ambas. Sin embargo, este enfoque no garantiza una medida directa de la integración más que las otras variantes de la ilusión, como se argumenta a continuación.
La segunda afirmación principal aquí es que la percepción de los componentes del estímulo acústico y visual debe tenerse en cuenta al interpretar el efecto McGurk. Esta cuestión ha sido elaborada previamente en el extenso trabajo de Massaro y sus colegas (Massaro, 1998) y otros (Sekiyama y Tohkura, 1991; Green y Norrix, 1997; Jiang y Bernstein, 2011). Es importante porque la precisión de identificación de los componentes unisensoriales se refleja en la percepción audiovisual del habla.
En general, se considera que la fuerza del efecto McGurk aumenta cuando la proporción de respuestas según el componente acústico disminuye y/o cuando la proporción de respuestas de fusión aumenta. Es decir, el efecto McGurk para el estímulo AV se considera más fuerte cuando se dan menos respuestas B y/o más respuestas D. Esta suele ser una forma adecuada de medir la fuerza del efecto McGurk, si se tiene en cuenta que asume implícitamente que la percepción de los componentes acústicos y visuales es precisa (o al menos constante en las condiciones que se comparan). Sin embargo, puede llevar a conclusiones erróneas si esta suposición no se cumple.
El efecto de fusión es un buen ejemplo de esta advertencia. Se ha interpretado como que la información acústica y visual se integra para producir una percepción intermedia novedosa. Por ejemplo, cuando la AV se escucha como , se cree que el concepto surge debido a la fusión de las características (para el lugar de articulación) proporcionadas a través de la audición (bilabial) y la visión (velar), de modo que se percibe una consonante diferente e intermedia (alveolar) (van Wassenhove, 2013). Sin embargo, ya McGurk y MacDonald (1976) escribieron que «los movimientos labiales para son frecuentemente malinterpretados como ,» aunque no midieron el rendimiento de la lectura del habla, desafortunadamente. La omisión de la condición visual unisensorial en el estudio original es un factor que ha contribuido al fuerte estatus del efecto de fusión como el único efecto McGurk real, que refleja la verdadera integración. Aun así, si lo visual se confunde con , no es en absoluto sorprendente o especial si la AV se percibe como .
Para demostrar la contribución de los componentes unisensoriales de forma más explícita, tomaré dos ejemplos de mi investigación, en los que los estímulos de tipo fusión produjeron percepciones diferentes dependiendo de la claridad del componente visual. En un estudio, un estímulo McGurk AV se escuchó principalmente como una fusión (Tiippana et al., 2004). Esto reflejó el hecho de que en una tarea de identificación sólo visual, lo visual se confundió con (42% de respuestas K y 45% de respuestas T a lo visual ). En otro estudio, un estímulo McGurk AV se escuchó principalmente como , y esto podría deberse al hecho de que en una tarea de identificación sólo visual, lo visual era claramente distinguible de , y por lo tanto se reconoció con mucha precisión (100% de aciertos en adultos típicos; Saalasti et al., 2012; pero nótese el comportamiento desviado de los individuos con síndrome de Asperger). Así, aunque los estímulos McGurk eran de tipo fusión en ambos estudios, su percepción difería dependiendo en gran medida de la claridad de los componentes visuales. Estos resultados subrayan la importancia de conocer las cualidades perceptivas de los estímulos unisensoriales antes de sacar conclusiones sobre la integración multisensorial.
El modo exacto de tener en cuenta las propiedades de los componentes unisensoriales en la percepción multisensorial del habla queda fuera de este trabajo. Abordar esta cuestión en detalle requiere estudios experimentales cuidadosamente diseñados (Bertelson et al., 2003; Alsius et al., 2005), el modelado computacional (Massaro, 1998; Schwartz, 2010) y la investigación de los mecanismos cerebrales subyacentes (Sams et al., 1991; Skipper et al., 2007). Sin embargo, la pauta principal es que la percepción unisensorial de los componentes del estímulo se refleja en la percepción multisensorial del conjunto (Ernst y Bülthoff, 2004).
Durante los experimentos, cuando la tarea consiste en informar de lo que se ha oído, el observador informa de la percepción auditiva consciente evocada por el estímulo audiovisual. Si no hay integración o interacción multisensorial, el percepto es idéntico para el estímulo audiovisual y el componente auditivo presentado solo. Si hay integración audiovisual, la percepción auditiva consciente cambia. La medida en que la entrada visual influye en la percepción depende de la coherencia y fiabilidad de la información que proporciona cada modalidad. La información coherente se integra y se pondera, por ejemplo, según la fiabilidad de cada modalidad, lo que se refleja en la discriminabilidad unisensorial.
Este proceso perceptivo es el mismo para el habla audiovisual, ya sea el habla audiovisual natural y congruente o los estímulos del habla artificiales e incongruentes de McGurk. El resultado es la percepción auditiva consciente. Dependiendo de la ponderación relativa de la audición y la visión, el resultado de los estímulos McGurk puede variar desde la audición según el componente acústico (cuando la audición es más fiable que la visión) hasta las percepciones de fusión y combinación (cuando ambas modalidades son informativas en cierta medida), pasando por la audición según el componente visual (cuando la visión es más fiable que la audición). El discurso audiovisual congruente no se trata de forma diferente, mostrando la influencia visual cuando la fiabilidad auditiva disminuye. Las diferentes variantes del efecto McGurk son todas resultado de este mismo proceso perceptivo y reflejan la integración audiovisual.
El efecto McGurk es una herramienta excelente para investigar la integración multisensorial en la percepción del habla. Los principales mensajes de este artículo de opinión son, en primer lugar, que el efecto McGurk debe definirse como un cambio en la percepción auditiva debido a un discurso visual incongruente, de modo que los observadores escuchan otro sonido del habla que el que la voz pronunció, y en segundo lugar, que las propiedades perceptivas de los componentes del estímulo acústico y visual deben tenerse en cuenta al interpretar el efecto McGurk como reflejo de la integración.
Declaración de conflicto de intereses
El autor declara que la investigación se llevó a cabo en ausencia de cualquier relación comercial o financiera que pudiera interpretarse como un potencial conflicto de intereses.
Reconocimiento
Esta investigación fue financiada por una beca de la Universidad de Helsinki.
Notas al pie
1. ^A lo largo de este trabajo sólo se mencionan algunas referencias representativas como ejemplos de la extensa literatura sobre cada tema.
Alsius, A., Navarra, J., Campbell, R., y Soto-Faraco, S. (2005). La integración audiovisual del habla vacila bajo altas demandas de atención. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Bertelson, P., Vroomen, J., y De Gelder, B. (2003). Visual recalibration of auditory speech identification: a McGurk aftereffect. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Brancazio, L., Miller, J. L., y Paré, M. A. (2003). Influencias visuales en la estructura interna de las categorías fonéticas. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Ernst, M. O., y Bülthoff, H. H. (2004). La fusión de los sentidos en un concepto robusto. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Green, K. P., y Norrix, L. W. (1997). Acoustic cues to place of articulation and the McGurk effect: the role of release bursts, aspiration, and formant transitions. J. Speech Lang. Hear. Res. 40, 646-665.
Pubmed Abstract | Pubmed Full Text
Jiang, J., y Bernstein, L. E. (2011). Psicofísica del McGurk y otros efectos de integración del habla audiovisual. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). Sobre la variabilidad del efecto McGurk: la integración audiovisual depende de los estados cerebrales previos al estímulo. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
MacDonald, J., y McGurk, H. (1978). Influencias visuales en los procesos de percepción del habla. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Massaro, D. W. (1998). Perceiving Talking Faces. Cambridge, MA: MIT Press.
McGurk, H., y MacDonald, J. (1976). Hearing lips and seeing voices. Nature 264, 746-748. doi: 10.1038/264746a0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Rosenblum, L. D., y Saldaña, H. M. (1996). Una prueba audiovisual de primitivas cinemáticas para la percepción visual del habla. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Percepción del habla audiovisual y el comportamiento de la mirada de los adultos con síndrome de Asperger. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). Seeing speech: visual information from lip movements modifies activity in the human auditory cortex. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Schwartz, J. L. (2010). Un reanálisis de los datos de McGurk sugiere que la fusión audiovisual en la percepción del habla depende del sujeto. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sekiyama, K., y Tohkura, Y. (1991). Efecto McGurk en oyentes no ingleses: pocos efectos visuales para sujetos japoneses que escuchan sílabas japonesas de alta inteligibilidad auditiva. J. Acoust. Soc. Am. 90, 1797-1805.
Pubmed Abstract | Pubmed Full Text
Setti, A., Burke, K. E., Kenny, R., y Newell, F. N. (2013). La susceptibilidad a una ilusión de habla multisensorial en las personas mayores es impulsada por los procesos perceptivos. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Skipper, J. I., van Wassenhove, V.Nusbaum, H. C., y Small, S. L. (2007). Hearing lips and seeing voices: how cortical areas supporting speech production mediate audiovisual speech perception. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Tiippana, K., Andersen, T. S., y Sams, M. (2004). La atención visual modula la percepción audiovisual del habla. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/09541440340000268
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V. (2013). El habla a través de los oídos y los ojos: la interfaz de los sentidos con el cerebro supramodal. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V., Grant, K. W., y Poeppel, D. (2007). Ventana temporal de integración en la percepción auditiva-visual del habla. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text