Frontiers in Psychology

McGurk e MacDonald (1976) relataram uma poderosa ilusão multissensorial ocorrendo com o discurso audiovisual. Eles gravaram uma voz articulando uma consoante e a dublaram com uma face articulando outra consoante. Embora o sinal acústico da fala fosse bem reconhecido sozinho, foi ouvido como outra consoante depois da dublagem com discurso visual incongruente. A ilusão tem sido chamada de efeito McGurk. Tem sido replicado muitas vezes, e tem provocado uma abundância de pesquisas. A razão para o grande impacto é que esta é uma demonstração marcante de integração multissensorial. Mostra que a informação auditiva e visual se funde em uma percepção unificada e integrada. É uma ferramenta de pesquisa muito útil já que a força do efeito McGurk pode ser tomada para refletir a força da integração audiovisual.

Aqui farei duas afirmações principais sobre a definição e interpretação do efeito McGurk já que elas têm relevância para seu uso como medida de integração multissensorial. Primeiro, o efeito McGurk deve ser definido como uma mudança categórica na percepção auditiva induzida pela fala visual incongruente, resultando em uma única percepção da audição de algo diferente do que a voz está dizendo. Segundo, ao interpretar o efeito McGurk, é crucial levar em consideração a percepção dos componentes acústicos e visuais do estímulo unisensorial.

Existem muitas variantes do efeito McGurk (McGurk e MacDonald, 1976; MacDonald e McGurk, 1978)1. O caso mais conhecido é quando dublar um ditado de voz sobre um rosto articulado resulta em audição . Isso é chamado de efeito de fusão, pois o perceptível difere dos componentes acústicos e visuais. Muitos pesquisadores têm definido o efeito McGurk exclusivamente como o efeito de fusão, pois aqui a integração resulta na percepção de uma terceira consoante, fundindo obviamente informações da audição e da visão (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Esta definição ignora o fato de que outros estímulos audiovisuais incongruentes produzem diferentes tipos de percepções. Por exemplo, uma combinação inversa dessas consoantes, AV, é ouvida como , ou seja, os componentes visuais e auditivos, um após o outro. Existem outros pares, que resultam em audição de acordo com o componente visual, por exemplo, o acústico apresentado com visual é ouvido como . Aqui minha primeira afirmação é que a definição do efeito McGurk deve ser que uma fala acústica é ouvida como outra fala quando apresentada com articulação visual discrepante. Esta definição inclui todas as variantes da ilusão, e tem sido usada pelos próprios MacDonald e McGurk (1978), bem como por vários outros (por exemplo, Rosenblum e Saldaña, 1996; Brancazio et al., 2003). As diferentes variantes do efeito McGurk representam o resultado da integração audiovisual. Quando a integração ocorre, resulta em uma percepção unificada, sem acesso aos componentes individuais que contribuíram para a percepção. Assim, quando o efeito McGurk ocorre, o observador tem a experiência subjetiva de ouvir uma determinada expressão, mesmo que outra expressão seja apresentada acusticamente.

Um desafio com esta interpretação do efeito McGurk é que é impossível ter certeza de que as respostas que o observador dá correspondem às percepções reais. O verdadeiro efeito McGurk surge devido à integração multisensorial, resultando em uma percepção auditiva alterada. Entretanto, se a integração não ocorrer, o observador pode perceber os componentes separadamente e pode optar por responder de acordo com o que ouviu ou de acordo com o que viu. Esta é uma das razões pelas quais o efeito de fusão é tão atractivo: Se o observador relata uma percepção que difere dos dois componentes do estímulo, ele não parece confiar apenas em nenhuma das modalidades, mas fundir realmente a informação de ambas. No entanto, esta abordagem não garante uma medida mais simples de integração do que as outras variantes da ilusão, como é argumentado abaixo.

A segunda afirmação principal aqui é que a percepção dos componentes do estímulo acústico e visual tem que ser levada em conta ao interpretar o efeito McGurk. Esta questão foi elaborada anteriormente no extenso trabalho de Massaro e colegas (Massaro, 1998) e outros (Sekiyama e Tohkura, 1991; Green e Norrix, 1997; Jiang e Bernstein, 2011). É importante porque a precisão de identificação dos componentes unisensoriais se reflete na percepção audiovisual da fala.

Em geral, a força do efeito McGurk é levada a aumentar quando a proporção de respostas de acordo com o componente acústico diminui e/ou quando a proporção de respostas de fusão aumenta. Ou seja, o efeito McGurk para o estímulo AV é considerado mais forte quando menos respostas B e/ou mais respostas D são dadas. Esta é frequentemente uma forma adequada de medir a força do efeito McGurk – se tivermos em mente que este pressupõe implicitamente que a percepção dos componentes acústicos e visuais é precisa (ou pelo menos constante através das condições que são comparadas). Entretanto, pode levar a conclusões errôneas se esta suposição não se confirmar.

O efeito de fusão fornece um exemplo perfeito desta advertência. Ele tem sido interpretado como significando que a informação acústica e visual é integrada para produzir uma percepção nova e intermediária. Por exemplo, quando o AV é ouvido como , pensa-se que o percept surge devido à fusão das características (para o lugar de articulação) fornecidas via audição (bilabial) e visão (velar), de modo que uma consoante diferente, intermédia (alveolar) é percebida (van Wassenhove, 2013). Contudo, já McGurk e MacDonald (1976) escreveram que “os movimentos labiais para são frequentemente mal lidos como ,” apesar de não medirem a performance de leitura da fala, infelizmente. A omissão da condição visual unisensorial no estudo original é um fator que contribuiu para o forte status do efeito de fusão como o único efeito McGurk real, refletindo a verdadeira integração. Ainda assim, se confundir visual com , não é nada surpreendente ou especial se AV for percebido como .

Para demonstrar mais explicitamente a contribuição dos componentes unisensoriais, vou pegar dois exemplos da minha pesquisa, em que estímulos do tipo fusão produziram percepções diferentes, dependendo da clareza do componente visual. Em um estudo, um estímulo AV do tipo McGurk foi ouvido principalmente como uma fusão (Tiippana et al., 2004). Isso refletiu o fato de que em uma tarefa de identificação apenas visual, o visual foi confundido com (42% de respostas K e 45% de respostas T ao visual ). Em outro estudo, um estímulo AV McGurk foi ouvido principalmente como , e isso pode ser rastreado ao fato de que em uma tarefa de identificação visual, o visual foi claramente distinguível de , e assim reconhecido com muita precisão (100% correto em adultos típicos; Saalasti et al., 2012; mas note o comportamento desviante de indivíduos com síndrome de Asperger). Assim, embora os estímulos McGurk fossem do tipo fusão em ambos os estudos, sua percepção diferiu em grande parte em função da clareza dos componentes visuais. Estes achados ressaltam a importância de conhecer as qualidades perceptivas dos estímulos unissensoriais antes de tirar conclusões sobre a integração multisensorial.

Exatamente como levar em conta as propriedades dos componentes unissensoriais na percepção multisensorial da fala está além deste trabalho. Abordar esta questão em detalhes requer estudos experimentais cuidadosamente projetados (Bertelson et al., 2003; Alsius et al., 2005), modelagem computacional (Massaro, 1998; Schwartz, 2010), e investigação dos mecanismos cerebrais subjacentes (Sams et al., 1991; Skipper et al., 2007). Entretanto, a principal diretriz é que a percepção unisensorial dos componentes do estímulo se reflete na percepção multissensorial do todo (Ernst e Bülthoff, 2004).

Durante experimentos, quando a tarefa é relatar o que foi ouvido, o observador relata a percepção auditiva consciente evocada pelo estímulo audiovisual. Caso não haja integração ou interação multisensorial, a percepção é idêntica para o estímulo audiovisual e o componente auditivo apresentado isoladamente. Se houver integração audiovisual, a percepção auditiva consciente muda. Até que ponto o input visual influencia a percepção depende de quão coerente e confiável a informação que cada modalidade fornece. A informação coerente é integrada e ponderada, por exemplo, de acordo com a confiabilidade de cada modalidade, o que se reflete em discriminabilidade unisensorial.

Este processo perceptivo é o mesmo para a fala audiovisual – seja ela natural, congruente ou artificial, incongruente, estímulos de fala McGurk. O resultado é a percepção auditiva consciente. Dependendo do peso relativo da audição e da visão, o resultado dos estímulos McGurk pode variar desde a audição de acordo com o componente acústico (quando a audição é mais confiável que a visão) até a fusão e combinação de percepções (quando ambas as modalidades são até certo ponto informativas) até a audição de acordo com o componente visual (quando a visão é mais confiável que a audição). A fala audiovisual congruente não é tratada de forma diferente, mostrando influência visual quando a confiabilidade auditiva diminui. As diferentes variantes do efeito McGurk são todas resultados desse mesmo processo perceptivo e refletem a integração audiovisual.

O efeito McGurk é uma excelente ferramenta para investigar a integração multisensorial na percepção da fala. As principais mensagens deste artigo de opinião são, em primeiro lugar, que o efeito McGurk deve ser definido como uma mudança na percepção auditiva devido à fala visual incongruente, para que os observadores ouçam outro som da fala além do que a voz pronunciou e, em segundo lugar, que as propriedades perceptivas dos componentes de estímulo acústico e visual devem ser levadas em conta ao interpretar o efeito McGurk como reflexo da integração.

Conflict of Interest Statement

O autor declara que a pesquisa foi conduzida na ausência de quaisquer relações comerciais ou financeiras que pudessem ser interpretadas como um potencial conflito de interesses.

Acknowledgment

Esta pesquisa foi financiada por uma bolsa da Universidade de Helsinki.

Footnotes

1. ^Atrás deste artigo apenas algumas referências representativas são mencionadas como exemplos da extensa literatura sobre cada tópico.

Alsius, A., Navarra, J., Campbell, R., e Soto-Faraco, S. (2005). A integração audiovisual da fala vacila sob altas exigências de atenção. Moeda. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Bertelson, P., Vroomen, J., e De Gelder, B. (2003). Recalibração visual da identificação auditiva da fala: um efeito secundário McGurk. Psicol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Brancazio, L., Miller, J. L., e Paré, M. A. (2003). Influências visuais sobre a estrutura interna das categorias fonéticas. Percepção. Psicofísicos. 65, 591-601. doi: 10.3758/BF03194585

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Ernst, M. O., e Bülthoff, H. H. (2004). Fundindo os sentidos em uma percepção robusta. Tendências Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Green, K. P., e Norrix, L. W. (1997). Tacos acústicos para o lugar de articulação e o efeito McGurk: o papel das explosões de liberação, aspiração e transições formadoras. J. Speech Lang. Ouvir. Res. 40, 646-665.

Pubmed Abstract | Pubmed Full Text

Jiang, J., e Bernstein, L. E. (2011). Psicofísica do McGurk e outros efeitos audiovisuais de integração da fala. J. Exp. Psicol. Hum. Percepção. Perform. 37, 1193-1209. doi: 10.1037/a0023100

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). Sobre a variabilidade do efeito McGurk: a integração audiovisual depende dos estados de pré-estímulo do cérebro. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

MacDonald, J., e McGurk, H. (1978). Influências visuais nos processos de percepção da fala. Percepção. Psychophys. 24, 253-257. doi: 10.3758/BF03206096

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Massaro, D. W. (1998). Percebendo Faces Falantes. Cambridge, MA: MIT Press.

McGurk, H., e MacDonald, J. (1976). Ouvir lábios e ver vozes. Nature 264, 746-748. doi: 10.1038/264746a0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Rosenblum, L. D., e Saldaña, H. M. (1996). Um teste audiovisual de primitivos cinemáticos para a percepção visual da fala. J. Exp. Psychol. Hum. Percepção. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Percepção da fala audiovisual e comportamento do olhar de adultos com Síndrome de Asperger. J. Autism Dev. Desordem. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). Ver a fala: a informação visual dos movimentos labiais modifica a actividade no córtex auditivo humano. Neuroci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Schwartz, J. L. (2010). Uma reanálise dos dados McGurk sugere que a fusão audiovisual na percepção da fala é dependente do sujeito. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sekiyama, K., and Tohkura, Y. (1991). Efeito McGurk em ouvintes não-ingleses: poucos efeitos visuais para sujeitos japoneses que ouvem sílabas japonesas de alta inteligibilidade auditiva. J. Acoust. Soc. Am. 90, 1797-1805.

Pubmed Abstract | Pubmed Full Text

Setti, A., Burke, K. E., Kenny, R., and Newell, F. N. (2013). Susceptibilidade a uma ilusão de fala multissensorial em pessoas mais velhas é motivada por processos perceptuais. Frente. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Skipper, J. I., van Wassenhove, V.Nusbaum, H. C., e Small, S. L. (2007). Hearing lips and seeing voices: how cortical areas supporting speech production mediate audiovisual speech perception. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Tiippana, K., Andersen, T. S., e Sams, M. (2004). A atenção visual modula a percepção da fala audiovisual. Eur. J. Cogn. Psicol. 16, 457-472. doi: 10.1080/09541440340000268

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V. (2013). Fala através dos ouvidos e dos olhos: interface dos sentidos com o cérebro supramodal. Frente. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V., Grant, K. W., e Poeppel, D. (2007). Janela temporal de integração na percepção auditivo-visual da fala. Neuropsicologia 45, 598-607. doi: 10.1016/j.neuropsicologia.2006.01.001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Deixe uma resposta

O seu endereço de email não será publicado.