McGurk i MacDonald (1976) opisali silną wielozmysłową iluzję występującą w przypadku audiowizualnej mowy. Nagrali oni głos artykułujący spółgłoskę i dubbingowali go z twarzą artykułującą inną spółgłoskę. Nawet jeśli sam akustyczny sygnał mowy był dobrze rozpoznawany, to po dubbingu z niespójną mową wizualną był słyszany jako inna spółgłoska. Iluzja ta została nazwana efektem McGurka. Efekt ten został wielokrotnie powtórzony i wywołał wiele badań. Powodem tak wielkiego wpływu jest to, że jest to uderzająca demonstracja integracji wielozmysłowej. Pokazuje ona, że informacje słuchowe i wzrokowe łączą się w jednolitą, zintegrowaną percepcję. Jest to bardzo użyteczne narzędzie badawcze, ponieważ siła efektu McGurka może być brana pod uwagę jako odzwierciedlenie siły integracji audiowizualnej.
W tym miejscu przedstawię dwa główne twierdzenia dotyczące definicji i interpretacji efektu McGurka, ponieważ mają one znaczenie dla jego użycia jako miary integracji wielozmysłowej. Po pierwsze, efekt McGurka powinien być definiowany jako kategoryczna zmiana w percepcji słuchowej wywołana przez niespójną mowę wizualną, skutkująca pojedynczym spostrzeżeniem, że słyszy się coś innego niż to, co mówi głos. Po drugie, przy interpretacji efektu McGurka kluczowe jest uwzględnienie percepcji unisensorycznych komponentów bodźca akustycznego i wizualnego.
Istnieje wiele wariantów efektu McGurka (McGurk i MacDonald, 1976; MacDonald i McGurk, 1978)1. Najbardziej znanym przypadkiem jest dubbingowanie głosu mówiącego na twarz artykulującą, co skutkuje słyszeniem . Nazywa się to efektem fuzji, ponieważ percepcja różni się od komponentu akustycznego i wizualnego. Wielu badaczy definiuje efekt McGurka wyłącznie jako efekt fuzji, ponieważ w tym przypadku integracja skutkuje percepcją trzeciej spółgłoski, w oczywisty sposób łącząc informacje ze słuchu i wzroku (van Wassenhove i in., 2007; Keil i in., 2012; Setti i in., 2013). Definicja ta nie uwzględnia faktu, że inne niezgodne bodźce audiowizualne wywołują różne rodzaje percepcji. Na przykład, odwrotna kombinacja tych spółgłosek, AV, jest słyszana jako , tzn. komponenty wzrokowy i słuchowy występują jeden po drugim. Istnieją też inne pary, które powodują słyszenie zgodnie z komponentem wizualnym, np. akustyczny prezentowany z wizualnym jest słyszany jako . Tutaj moim pierwszym twierdzeniem jest, że definicja efektu McGurka powinna być taka, że wypowiedź akustyczna jest słyszana jako inna wypowiedź, kiedy prezentowana jest z rozbieżną artykulacją wizualną. Definicja ta obejmuje wszystkie warianty iluzji i była używana przez samych MacDonalda i McGurka (1978), jak również przez kilku innych (np. Rosenblum i Saldaña, 1996; Brancazio i in., 2003). Różne warianty efektu McGurka są wynikiem integracji audiowizualnej. Kiedy ma miejsce integracja, skutkuje ona ujednoliceniem percepcji, bez dostępu do poszczególnych komponentów, które ją tworzyły. Tak więc, kiedy pojawia się efekt McGurka, obserwator ma subiektywne doświadczenie słyszenia pewnej wypowiedzi, nawet jeśli inna wypowiedź jest prezentowana akustycznie.
Jednym z wyzwań związanych z tą interpretacją efektu McGurka jest to, że nie można być pewnym, że odpowiedzi, których udziela obserwator odpowiadają rzeczywistym percepcjom. Prawdziwy efekt McGurka powstaje w wyniku integracji wielozmysłowej, co skutkuje zmienioną percepcją słuchową. Jednakże, jeśli integracja nie zachodzi, obserwator może postrzegać komponenty oddzielnie i może wybrać odpowiedź albo zgodnie z tym, co usłyszał, albo zgodnie z tym, co zobaczył. Jest to jeden z powodów, dla których efekt fuzji jest tak atrakcyjny: Jeśli obserwator zgłasza percepcję, która różni się od obu komponentów bodźca, nie polega on na żadnej z modalności, ale w rzeczywistości łączy informacje z obu. Jednakże to podejście nie gwarantuje bezpośredniej miary integracji bardziej niż inne warianty iluzji, jak argumentujemy poniżej.
Drugim głównym twierdzeniem jest to, że percepcja akustycznych i wizualnych komponentów bodźca musi być brana pod uwagę przy interpretacji efektu McGurka. Kwestia ta została omówiona wcześniej w obszernej pracy Massaro i współpracowników (Massaro, 1998) i innych (Sekiyama i Tohkura, 1991; Green i Norrix, 1997; Jiang i Bernstein, 2011). Jest to ważne, ponieważ dokładność identyfikacji komponentów unisensorycznych jest odzwierciedlona w audiowizualnej percepcji mowy.
Ogólnie przyjmuje się, że siła efektu McGurka wzrasta, gdy zmniejsza się proporcja odpowiedzi zgodnych z komponentem akustycznym i/lub gdy wzrasta proporcja odpowiedzi opartych na fuzji. To znaczy, efekt McGurk dla bodźca AV jest uważany za silniejszy, gdy mniej odpowiedzi B i/lub więcej odpowiedzi D jest udzielanych. Jest to często adekwatny sposób pomiaru siły efektu McGurka – jeśli pamięta się o tym, że zakłada on implicite, że percepcja komponentów akustycznych i wizualnych jest dokładna (lub przynajmniej stała w porównywanych warunkach). Jednakże, może on prowadzić do błędnych wniosków, jeśli to założenie nie jest spełnione.
Efekt fuzji stanowi doskonały przykład tego zastrzeżenia. Zinterpretowano go w ten sposób, że informacje akustyczne i wizualne są zintegrowane w celu wytworzenia nowego, pośredniego postrzegania. Na przykład, kiedy AV jest słyszana jako , uważa się, że percepcja ta powstaje w wyniku fuzji cech (dla miejsca artykulacji) dostarczonych przez słuch (oboczny) i wzrok (welarny), tak że postrzegana jest inna, pośrednia spółgłoska (zębodołowy) (van Wassenhove, 2013). Jednak już McGurk i MacDonald (1976) sami pisali, że „ruchy warg dla są często błędnie odczytywane jako ,”, choć niestety nie mierzyli sprawności czytania mowy. Pominięcie niesensorycznego warunku wizualnego w oryginalnym badaniu jest jednym z czynników, który przyczynił się do silnego statusu efektu fuzji jako jedynego prawdziwego efektu McGurka, odzwierciedlającego prawdziwą integrację. Wciąż, jeśli wizualne jest mylone z , to nie jest wcale zaskakujące czy wyjątkowe, jeśli AV jest postrzegane jako .
Aby zademonstrować wkład komponentów niesensorycznych bardziej wyraźnie, posłużę się dwoma przykładami z moich badań, w których bodźce typu fuzji powodowały różne percepcje w zależności od jasności komponentu wizualnego. W jednym z badań, bodziec McGurk AV był głównie słyszany jako fuzja (Tiippana i in., 2004). Odzwierciedlało to fakt, że w zadaniu identyfikacji wyłącznie wzrokowej, wizualny był mylony z (42% odpowiedzi K i 45% odpowiedzi T na wizualny ). W innym badaniu, bodziec McGurk AV był głównie słyszany jako , i można to wytłumaczyć faktem, że w zadaniu identyfikacji tylko wzrokowej, bodziec wzrokowy był wyraźnie odróżniany od , i dlatego był bardzo dokładnie rozpoznawany (100% poprawnych odpowiedzi u typowych dorosłych; Saalasti et al., 2012; ale zwróć uwagę na dewiacyjne zachowanie osób z zespołem Aspergera). Tak więc, nawet jeśli bodźce McGurk były typu fuzyjnego w obu badaniach, ich percepcja różniła się w dużej mierze w zależności od jasności komponentów wizualnych. Wyniki te podkreślają znaczenie znajomości percepcyjnych właściwości bodźców unisensorycznych przed wyciągnięciem wniosków na temat integracji wielozmysłowej.
Dokładnie to, jak wziąć pod uwagę właściwości komponentów unisensorycznych w wielozmysłowej percepcji mowy, wykracza poza ramy tego opracowania. Szczegółowe omówienie tego zagadnienia wymaga starannie zaprojektowanych badań eksperymentalnych (Bertelson i in., 2003; Alsius i in., 2005), modelowania obliczeniowego (Massaro, 1998; Schwartz, 2010) oraz zbadania mechanizmów mózgowych (Sams i in., 1991; Skipper i in., 2007). Główną wytyczną jest jednak to, że unisensoryczna percepcja komponentów bodźca jest odzwierciedlona w multisensorycznej percepcji całości (Ernst i Bülthoff, 2004).
Podczas eksperymentów, gdy zadaniem jest raportowanie tego, co było słyszane, obserwator raportuje świadomą percepcję słuchową wywołaną przez bodziec audiowizualny. Jeśli nie ma wielozmysłowej integracji lub interakcji, percepcja jest identyczna dla bodźca audiowizualnego i komponentu słuchowego prezentowanego samodzielnie. Jeśli występuje integracja audiowizualna, świadoma percepcja słuchowa ulega zmianie. To, w jakim stopniu bodźce wzrokowe wpływają na percepcję, zależy od tego, jak spójnych i wiarygodnych informacji dostarcza każda z modalności. Spójna informacja jest integrowana i ważona np. zgodnie z wiarygodnością każdej modalności, co jest odzwierciedlone w jednozmysłowej rozróżnialności.
Ten proces percepcyjny jest taki sam dla mowy audiowizualnej – czy jest to naturalna, zgodna mowa audiowizualna, czy sztuczne, niezgodne bodźce mowy McGurka. Rezultatem jest świadoma percepcja słuchowa. W zależności od względnej wagi percepcji słuchowej i wzrokowej, wynik dla bodźców McGurk’a może wahać się od słyszenia zgodnie z komponentem akustycznym (gdy percepcja słuchowa jest bardziej wiarygodna niż wzrokowa) do percepcji fuzji i kombinacji (gdy obie modalności są do pewnego stopnia informacyjne) do słyszenia zgodnie z komponentem wzrokowym (gdy wzrok jest bardziej wiarygodny niż percepcja słuchowa). Nie inaczej traktowana jest spójna mowa audiowizualna, która wykazuje wpływ wzroku, gdy spada wiarygodność słuchu. Różne warianty efektu McGurka są wynikiem tego samego procesu percepcyjnego i odzwierciedlają integrację audiowizualną.
Efekt McGurka jest doskonałym narzędziem do badania integracji wielozmysłowej w percepcji mowy. Główne przesłania tego artykułu to, po pierwsze, że efekt McGurka powinien być definiowany jako zmiana w percepcji słuchowej spowodowana niezgodnością wizualną mowy, tak że obserwatorzy słyszą inny dźwięk mowy niż ten, który został wypowiedziany przez głos, a po drugie, że właściwości percepcyjne komponentów bodźca akustycznego i wizualnego powinny być brane pod uwagę przy interpretacji efektu McGurka jako odzwierciedlającego integrację.
Oświadczenie o konflikcie interesów
Autor oświadcza, że badania zostały przeprowadzone przy braku jakichkolwiek komercyjnych lub finansowych relacji, które mogłyby być interpretowane jako potencjalny konflikt interesów.
Podziękowanie
Badania te zostały sfinansowane z grantu Uniwersytetu w Helsinkach.
Przypisy
1. ^W całym artykule wymieniono tylko niektóre reprezentatywne źródła jako przykłady obszernej literatury na każdy temat.
Alsius, A., Navarra, J., Campbell, R., and Soto-Faraco, S. (2005). Audiovisual integration of speech falters under high attention demands. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Bertelson, P., Vroomen, J., and De Gelder, B. (2003). Visual recalibration of auditory speech identification: a McGurk aftereffect. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Brancazio, L., Miller, J. L., and Paré, M. A. (2003). Visual influences on the internal structure of phonetic categories. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Ernst, M. O., and Bülthoff, H. H. (2004). Łączenie zmysłów w solidną percepcję. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Green, K. P., and Norrix, L. W. (1997). Acoustic cues to place of articulation and the McGurk effect: the role of release bursts, aspiration, and formant transitions. J. Speech Lang. Hear. Res. 40, 646-665.
Pubmed Abstract | Pubmed Full Text
Jiang, J., and Bernstein, L. E. (2011). Psychophysics of the McGurk and other audiovisual speech integration effects. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). On the variability of the McGurk effect: audiovisual integration depends on prestimulus brain states. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
MacDonald, J., and McGurk, H. (1978). Wizualne wpływy na procesy percepcji mowy. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Massaro, D. W. (1998). Perceiving Talking Faces. Cambridge, MA: MIT Press.
McGurk, H., and MacDonald, J. (1976). Słyszenie warg i widzenie głosów. Nature 264, 746-748. doi: 10.1038/264746a0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Rosenblum, L. D., and Saldaña, H. M. (1996). An audiovisual test of kinematic primitives for visual speech perception. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Audiovisual speech perception and eye gaze behavior of adults with Asperger Syndrome. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). Seeing speech: visual information from lip movements modifies activity in the human auditory cortex. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Schwartz, J. L. (2010). A reanalysis of McGurk data suggests that audiovisual fusion in speech perception is subject-dependent. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sekiyama, K., and Tohkura, Y. (1991). Efekt McGurk u słuchaczy nieanglojęzycznych: niewiele efektów wizualnych u Japończyków słyszących japońskie sylaby o wysokiej zrozumiałości słuchowej. J. Acoust. Soc. Am. 90, 1797-1805.
Pubmed Abstract | Pubmed Full Text
Setti, A., Burke, K. E., Kenny, R., and Newell, F. N. (2013). Susceptibility to a multisensory speech illusion in older persons is driven by perceptual processes. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Skipper, J. I., van Wassenhove, V.Nusbaum, H. C., and Small, S. L. (2007). Hearing lips and seeing voices: how cortical areas supporting speech production mediate audiovisual speech perception. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Tiippana, K., Andersen, T. S., and Sams, M. (2004). Uwaga wzrokowa moduluje audiowizualną percepcję mowy. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/09541440340000268
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V. (2013). Speech through ears and eyes: interfacing the senses with the supramodal brain. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V., Grant, K. W., and Poeppel, D. (2007). Temporal window of integration in auditory-visual speech perception. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
.