Frontiers | Co to jest efekt McGurka? | Psychologia

McGurk i MacDonald (1976) opisali silną wielozmysłową iluzję występującą w przypadku audiowizualnej mowy. Nagrali oni głos artykułujący spółgłoskę i dubbingowali go z twarzą artykułującą inną spółgłoskę. Nawet jeśli sam akustyczny sygnał mowy był dobrze rozpoznawany, to po dubbingu z niespójną mową wizualną był słyszany jako inna spółgłoska. Iluzja ta została nazwana efektem McGurka. Efekt ten został wielokrotnie powtórzony i wywołał wiele badań. Powodem tak wielkiego wpływu jest to, że jest to uderzająca demonstracja integracji wielozmysłowej. Pokazuje ona, że informacje słuchowe i wzrokowe łączą się w jednolitą, zintegrowaną percepcję. Jest to bardzo użyteczne narzędzie badawcze, ponieważ siła efektu McGurka może być brana pod uwagę jako odzwierciedlenie siły integracji audiowizualnej.

W tym miejscu przedstawię dwa główne twierdzenia dotyczące definicji i interpretacji efektu McGurka, ponieważ mają one znaczenie dla jego użycia jako miary integracji wielozmysłowej. Po pierwsze, efekt McGurka powinien być definiowany jako kategoryczna zmiana w percepcji słuchowej wywołana przez niespójną mowę wizualną, skutkująca pojedynczym spostrzeżeniem, że słyszy się coś innego niż to, co mówi głos. Po drugie, przy interpretacji efektu McGurka kluczowe jest uwzględnienie percepcji unisensorycznych komponentów bodźca akustycznego i wizualnego.

Istnieje wiele wariantów efektu McGurka (McGurk i MacDonald, 1976; MacDonald i McGurk, 1978)1. Najbardziej znanym przypadkiem jest dubbingowanie głosu mówiącego na twarz artykulującą, co skutkuje słyszeniem . Nazywa się to efektem fuzji, ponieważ percepcja różni się od komponentu akustycznego i wizualnego. Wielu badaczy definiuje efekt McGurka wyłącznie jako efekt fuzji, ponieważ w tym przypadku integracja skutkuje percepcją trzeciej spółgłoski, w oczywisty sposób łącząc informacje ze słuchu i wzroku (van Wassenhove i in., 2007; Keil i in., 2012; Setti i in., 2013). Definicja ta nie uwzględnia faktu, że inne niezgodne bodźce audiowizualne wywołują różne rodzaje percepcji. Na przykład, odwrotna kombinacja tych spółgłosek, AV, jest słyszana jako , tzn. komponenty wzrokowy i słuchowy występują jeden po drugim. Istnieją też inne pary, które powodują słyszenie zgodnie z komponentem wizualnym, np. akustyczny prezentowany z wizualnym jest słyszany jako . Tutaj moim pierwszym twierdzeniem jest, że definicja efektu McGurka powinna być taka, że wypowiedź akustyczna jest słyszana jako inna wypowiedź, kiedy prezentowana jest z rozbieżną artykulacją wizualną. Definicja ta obejmuje wszystkie warianty iluzji i była używana przez samych MacDonalda i McGurka (1978), jak również przez kilku innych (np. Rosenblum i Saldaña, 1996; Brancazio i in., 2003). Różne warianty efektu McGurka są wynikiem integracji audiowizualnej. Kiedy ma miejsce integracja, skutkuje ona ujednoliceniem percepcji, bez dostępu do poszczególnych komponentów, które ją tworzyły. Tak więc, kiedy pojawia się efekt McGurka, obserwator ma subiektywne doświadczenie słyszenia pewnej wypowiedzi, nawet jeśli inna wypowiedź jest prezentowana akustycznie.

Jednym z wyzwań związanych z tą interpretacją efektu McGurka jest to, że nie można być pewnym, że odpowiedzi, których udziela obserwator odpowiadają rzeczywistym percepcjom. Prawdziwy efekt McGurka powstaje w wyniku integracji wielozmysłowej, co skutkuje zmienioną percepcją słuchową. Jednakże, jeśli integracja nie zachodzi, obserwator może postrzegać komponenty oddzielnie i może wybrać odpowiedź albo zgodnie z tym, co usłyszał, albo zgodnie z tym, co zobaczył. Jest to jeden z powodów, dla których efekt fuzji jest tak atrakcyjny: Jeśli obserwator zgłasza percepcję, która różni się od obu komponentów bodźca, nie polega on na żadnej z modalności, ale w rzeczywistości łączy informacje z obu. Jednakże to podejście nie gwarantuje bezpośredniej miary integracji bardziej niż inne warianty iluzji, jak argumentujemy poniżej.

Drugim głównym twierdzeniem jest to, że percepcja akustycznych i wizualnych komponentów bodźca musi być brana pod uwagę przy interpretacji efektu McGurka. Kwestia ta została omówiona wcześniej w obszernej pracy Massaro i współpracowników (Massaro, 1998) i innych (Sekiyama i Tohkura, 1991; Green i Norrix, 1997; Jiang i Bernstein, 2011). Jest to ważne, ponieważ dokładność identyfikacji komponentów unisensorycznych jest odzwierciedlona w audiowizualnej percepcji mowy.

Ogólnie przyjmuje się, że siła efektu McGurka wzrasta, gdy zmniejsza się proporcja odpowiedzi zgodnych z komponentem akustycznym i/lub gdy wzrasta proporcja odpowiedzi opartych na fuzji. To znaczy, efekt McGurk dla bodźca AV jest uważany za silniejszy, gdy mniej odpowiedzi B i/lub więcej odpowiedzi D jest udzielanych. Jest to często adekwatny sposób pomiaru siły efektu McGurka – jeśli pamięta się o tym, że zakłada on implicite, że percepcja komponentów akustycznych i wizualnych jest dokładna (lub przynajmniej stała w porównywanych warunkach). Jednakże, może on prowadzić do błędnych wniosków, jeśli to założenie nie jest spełnione.

Efekt fuzji stanowi doskonały przykład tego zastrzeżenia. Zinterpretowano go w ten sposób, że informacje akustyczne i wizualne są zintegrowane w celu wytworzenia nowego, pośredniego postrzegania. Na przykład, kiedy AV jest słyszana jako , uważa się, że percepcja ta powstaje w wyniku fuzji cech (dla miejsca artykulacji) dostarczonych przez słuch (oboczny) i wzrok (welarny), tak że postrzegana jest inna, pośrednia spółgłoska (zębodołowy) (van Wassenhove, 2013). Jednak już McGurk i MacDonald (1976) sami pisali, że „ruchy warg dla są często błędnie odczytywane jako ,”, choć niestety nie mierzyli sprawności czytania mowy. Pominięcie niesensorycznego warunku wizualnego w oryginalnym badaniu jest jednym z czynników, który przyczynił się do silnego statusu efektu fuzji jako jedynego prawdziwego efektu McGurka, odzwierciedlającego prawdziwą integrację. Wciąż, jeśli wizualne jest mylone z , to nie jest wcale zaskakujące czy wyjątkowe, jeśli AV jest postrzegane jako .

Aby zademonstrować wkład komponentów niesensorycznych bardziej wyraźnie, posłużę się dwoma przykładami z moich badań, w których bodźce typu fuzji powodowały różne percepcje w zależności od jasności komponentu wizualnego. W jednym z badań, bodziec McGurk AV był głównie słyszany jako fuzja (Tiippana i in., 2004). Odzwierciedlało to fakt, że w zadaniu identyfikacji wyłącznie wzrokowej, wizualny był mylony z (42% odpowiedzi K i 45% odpowiedzi T na wizualny ). W innym badaniu, bodziec McGurk AV był głównie słyszany jako , i można to wytłumaczyć faktem, że w zadaniu identyfikacji tylko wzrokowej, bodziec wzrokowy był wyraźnie odróżniany od , i dlatego był bardzo dokładnie rozpoznawany (100% poprawnych odpowiedzi u typowych dorosłych; Saalasti et al., 2012; ale zwróć uwagę na dewiacyjne zachowanie osób z zespołem Aspergera). Tak więc, nawet jeśli bodźce McGurk były typu fuzyjnego w obu badaniach, ich percepcja różniła się w dużej mierze w zależności od jasności komponentów wizualnych. Wyniki te podkreślają znaczenie znajomości percepcyjnych właściwości bodźców unisensorycznych przed wyciągnięciem wniosków na temat integracji wielozmysłowej.

Dokładnie to, jak wziąć pod uwagę właściwości komponentów unisensorycznych w wielozmysłowej percepcji mowy, wykracza poza ramy tego opracowania. Szczegółowe omówienie tego zagadnienia wymaga starannie zaprojektowanych badań eksperymentalnych (Bertelson i in., 2003; Alsius i in., 2005), modelowania obliczeniowego (Massaro, 1998; Schwartz, 2010) oraz zbadania mechanizmów mózgowych (Sams i in., 1991; Skipper i in., 2007). Główną wytyczną jest jednak to, że unisensoryczna percepcja komponentów bodźca jest odzwierciedlona w multisensorycznej percepcji całości (Ernst i Bülthoff, 2004).

Podczas eksperymentów, gdy zadaniem jest raportowanie tego, co było słyszane, obserwator raportuje świadomą percepcję słuchową wywołaną przez bodziec audiowizualny. Jeśli nie ma wielozmysłowej integracji lub interakcji, percepcja jest identyczna dla bodźca audiowizualnego i komponentu słuchowego prezentowanego samodzielnie. Jeśli występuje integracja audiowizualna, świadoma percepcja słuchowa ulega zmianie. To, w jakim stopniu bodźce wzrokowe wpływają na percepcję, zależy od tego, jak spójnych i wiarygodnych informacji dostarcza każda z modalności. Spójna informacja jest integrowana i ważona np. zgodnie z wiarygodnością każdej modalności, co jest odzwierciedlone w jednozmysłowej rozróżnialności.

Ten proces percepcyjny jest taki sam dla mowy audiowizualnej – czy jest to naturalna, zgodna mowa audiowizualna, czy sztuczne, niezgodne bodźce mowy McGurka. Rezultatem jest świadoma percepcja słuchowa. W zależności od względnej wagi percepcji słuchowej i wzrokowej, wynik dla bodźców McGurk’a może wahać się od słyszenia zgodnie z komponentem akustycznym (gdy percepcja słuchowa jest bardziej wiarygodna niż wzrokowa) do percepcji fuzji i kombinacji (gdy obie modalności są do pewnego stopnia informacyjne) do słyszenia zgodnie z komponentem wzrokowym (gdy wzrok jest bardziej wiarygodny niż percepcja słuchowa). Nie inaczej traktowana jest spójna mowa audiowizualna, która wykazuje wpływ wzroku, gdy spada wiarygodność słuchu. Różne warianty efektu McGurka są wynikiem tego samego procesu percepcyjnego i odzwierciedlają integrację audiowizualną.

Efekt McGurka jest doskonałym narzędziem do badania integracji wielozmysłowej w percepcji mowy. Główne przesłania tego artykułu to, po pierwsze, że efekt McGurka powinien być definiowany jako zmiana w percepcji słuchowej spowodowana niezgodnością wizualną mowy, tak że obserwatorzy słyszą inny dźwięk mowy niż ten, który został wypowiedziany przez głos, a po drugie, że właściwości percepcyjne komponentów bodźca akustycznego i wizualnego powinny być brane pod uwagę przy interpretacji efektu McGurka jako odzwierciedlającego integrację.

Oświadczenie o konflikcie interesów

Autor oświadcza, że badania zostały przeprowadzone przy braku jakichkolwiek komercyjnych lub finansowych relacji, które mogłyby być interpretowane jako potencjalny konflikt interesów.

Podziękowanie

Badania te zostały sfinansowane z grantu Uniwersytetu w Helsinkach.

Przypisy

1. ^W całym artykule wymieniono tylko niektóre reprezentatywne źródła jako przykłady obszernej literatury na każdy temat.

Alsius, A., Navarra, J., Campbell, R., and Soto-Faraco, S. (2005). Audiovisual integration of speech falters under high attention demands. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046