Frontiers in Psychology

McGurk a MacDonald (1976) zaznamenali silnou multisenzorickou iluzi vyskytující se při audiovizuální řeči. Nahráli hlas artikulující souhlásku a dabovali jej obličejem artikulujícím jinou souhlásku. Přestože akustický řečový signál byl sám o sobě dobře rozpoznatelný, po dabingu s inkongruentní vizuální řečí byl slyšet jako jiná souhláska. Iluze byla označena jako McGurkův efekt. Byl mnohokrát replikován a vyvolal množství výzkumů. Důvodem velkého dopadu je to, že se jedná o pozoruhodnou ukázku multisenzorické integrace. Ukazuje, že sluchové a zrakové informace se spojují do jednotného, integrovaného vjemu. Je to velmi užitečný výzkumný nástroj, protože sílu McGurkova efektu lze považovat za odraz síly audiovizuální integrace.

Zde uvedu dvě hlavní tvrzení týkající se definice a interpretace McGurkova efektu, protože mají význam pro jeho použití jako měřítka multisenzorické integrace. Za prvé, McGurkův efekt by měl být definován jako kategorická změna sluchového vnímání vyvolaná inkongruentní vizuální řečí, jejímž výsledkem je jediný vjem slyšení něčeho jiného, než co říká hlas. Za druhé, při interpretaci McGurkova efektu je zásadní vzít v úvahu vnímání jednosmyslové složky akustického a vizuálního podnětu.

Existuje mnoho variant McGurkova efektu (McGurk a MacDonald, 1976; MacDonald a McGurk, 1978)1 . Nejznámějším případem je situace, kdy dabing hlasového výroku na artikulující obličej vede ke slyšení . Tento jev se nazývá fúzní efekt, protože vjem se liší od akustické a vizuální složky. Mnozí výzkumníci definovali McGurkův efekt výhradně jako fúzní efekt, protože zde integrace vede k vnímání třetího konsonantu, což zjevně slučuje informace ze slyšení a vidění (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Tato definice ignoruje skutečnost, že jiné inkongruentní audiovizuální podněty vyvolávají různé typy percepcí. Například obrácená kombinace těchto souhlásek, AV, je slyšena jako , tj. vizuální a auditivní složka po sobě. Existují i další dvojice, jejichž výsledkem je slyšení podle vizuální složky, např. akustická prezentovaná s vizuální je slyšena jako . Zde je mým prvním tvrzením, že definice McGurkova efektu by měla znít, že akustická výpověď je slyšena jako jiná výpověď, je-li prezentována s nesouhlasnou vizuální artikulací. Tato definice zahrnuje všechny varianty iluze a používají ji sami MacDonald a McGurk (1978) i někteří další (např. Rosenblum a Saldaña, 1996; Brancazio et al., 2003). Různé varianty McGurkova efektu představují výsledek audiovizuální integrace. Když dojde k integraci, výsledkem je jednotný vjem bez přístupu k jednotlivým složkám, které se na vjemu podílely. Když tedy dojde k McGurkovu efektu, má pozorovatel subjektivní zkušenost, že slyší určitou výpověď, i když je akusticky prezentována jiná výpověď.

Jedním z problémů této interpretace McGurkova efektu je, že není možné mít jistotu, že odpovědi, které pozorovatel dává, odpovídají skutečným vjemům. Skutečný McGurkův efekt vzniká v důsledku multisenzorické integrace, jejímž výsledkem je změněný sluchový vjem. Pokud však k integraci nedojde, může pozorovatel vnímat jednotlivé složky odděleně a může se rozhodnout reagovat buď podle toho, co slyšel, nebo podle toho, co viděl. To je jeden z důvodů, proč je efekt fúze tak atraktivní: Pokud pozorovatel hlásí vjem, který se liší od obou složek podnětu, zdá se, že se nespoléhá pouze na jednu z modalit, ale skutečně slučuje informace z obou. Tento přístup však nezaručuje přímou míru integrace o nic více než jiné varianty iluze, jak je argumentováno níže.

Druhým hlavním tvrzením zde je, že při interpretaci McGurkova efektu je třeba vzít v úvahu vnímání akustické a vizuální složky podnětu. Tato problematika byla již dříve rozpracována v rozsáhlé práci Massara a kolegů (Massaro, 1998) a dalších (Sekiyama a Tohkura, 1991; Green a Norrix, 1997; Jiang a Bernstein, 2011). Je důležitý, protože přesnost identifikace jednosmyslových složek se promítá do audiovizuálního vnímání řeči.

Obecně se má za to, že síla McGurkova efektu se zvyšuje, když se snižuje podíl odpovědí podle akustické složky a/nebo když se zvyšuje podíl fúzních odpovědí. To znamená, že McGurkův efekt pro podnět AV se považuje za silnější, když je uvedeno méně odpovědí B a/nebo více odpovědí D. To je často adekvátní způsob měření síly McGurkova efektu – pokud máme na paměti, že implicitně předpokládá, že vnímání akustické a vizuální složky je přesné (nebo alespoň konstantní ve všech srovnávaných podmínkách). Může však vést k chybným závěrům, pokud tento předpoklad neplatí.

Ukázkovým příkladem této výhrady je fúzní efekt. Byl interpretován tak, že akustické a vizuální informace jsou integrovány, aby vytvořily nový, zprostředkovaný vjem. Například když je AV slyšet jako , předpokládá se, že vjem vzniká v důsledku fúze rysů (pro místo artikulace) poskytovaných prostřednictvím audia (bilabiální) a zraku (velární), takže je vnímána jiná, přechodná souhláska (alveolární) (van Wassenhove, 2013). Nicméně již McGurk a MacDonald (1976) sami napsali, že „pohyby rtů pro jsou často chybně čteny jako ,“ i když bohužel neměřili výkon při čtení řeči. Vynechání jednosmyslové vizuální podmínky v původní studii je jedním z faktorů, který přispěl k silnému postavení efektu fúze jako jediného skutečného McGurkova efektu, který odráží skutečnou integraci. Přesto, pokud je vizuální zaměňován s , není vůbec překvapivé ani zvláštní, pokud je AV vnímán jako .

Abych demonstroval příspěvek jednosmyslových složek explicitněji, uvedu dva příklady z mého výzkumu, v nichž podněty fúzního typu vyvolávaly různé vjemy v závislosti na zřetelnosti vizuální složky. V jedné studii byl McGurkův podnět AV slyšen především jako fúze (Tiippana et al., 2004). To odráželo skutečnost, že v úloze zaměřené pouze na vizuální identifikaci byla vizuální složka zaměněna (42 % odpovědí K a 45 % odpovědí T na vizuální ). V jiné studii byl McGurkův podnět AV slyšen převážně jako , a to mohlo souviset s tím, že v identifikační úloze zaměřené pouze na zrak byl vizuál jasně odlišitelný od , a tudíž rozpoznán velmi přesně (100 % správných odpovědí u typických dospělých; Saalasti et al., 2012; všimněte si však odchylného chování jedinců s Aspergerovým syndromem). Přestože tedy McGurkovy podněty byly v obou studiích fúzního typu, jejich vnímání se lišilo především v závislosti na zřetelnosti vizuálních složek. Tato zjištění podtrhují důležitost znalosti percepčních vlastností jednosmyslových podnětů před vyvozením závěrů o multisenzorické integraci.

Jak přesně zohlednit vlastnosti jednosmyslových složek při multisenzorickém vnímání řeči, je mimo rámec tohoto článku. Podrobné řešení této otázky vyžaduje pečlivě navržené experimentální studie (Bertelson et al., 2003; Alsius et al., 2005), počítačové modelování (Massaro, 1998; Schwartz, 2010) a zkoumání základních mozkových mechanismů (Sams et al., 1991; Skipper et al., 2007). Hlavním vodítkem však je, že jednosmyslové vnímání složek podnětu se promítá do vícesmyslového vnímání celku (Ernst a Bülthoff, 2004).

Při experimentech, kdy je úkolem podat zprávu o tom, co bylo slyšet, pozorovatel podává zprávu o vědomém sluchovém vjemu vyvolaném audiovizuálním podnětem. Pokud nedochází k multisenzorické integraci nebo interakci, je vjem totožný pro audiovizuální podnět a sluchovou složku prezentovanou samostatně. Pokud dochází k audiovizuální integraci, vědomý sluchový vjem se mění. Do jaké míry vizuální vstup ovlivňuje vjem, závisí na tom, jak koherentní a spolehlivé informace jednotlivé modality poskytují. Koherentní informace jsou integrovány a váženy např. podle spolehlivosti každé modality, což se odráží v jednosmyslové rozlišitelnosti.

Tento percepční proces je stejný pro audiovizuální řeč – ať už jde o přirozenou, kongruentní audiovizuální řeč, nebo umělé, inkongruentní McGurkovy řečové podněty. Výsledkem je vědomý sluchový vjem. V závislosti na relativní váze sluchu a zraku se výsledek u McGurkových podnětů může pohybovat od slyšení podle akustické složky (když je sluch spolehlivější než zrak) přes fúzi a kombinované vjemy (když jsou obě modality do určité míry informativní) až po slyšení podle vizuální složky (když je zrak spolehlivější než sluch). Ke kongruentní audiovizuální řeči se nepřistupuje jinak, vykazuje vliv zraku, když spolehlivost sluchu klesá. Všechny různé varianty McGurkova efektu jsou výsledkem téhož percepčního procesu a odrážejí audiovizuální integraci.

McGurkův efekt je vynikajícím nástrojem pro zkoumání multisenzorické integrace při vnímání řeči. Hlavním poselstvím tohoto posudku je jednak to, že McGurkův efekt by měl být definován jako změna sluchového vnímání v důsledku inkongruentní vizuální řeči, takže pozorovatelé slyší jiný zvuk řeči, než jaký hlas vyslovil, a jednak to, že při interpretaci McGurkova efektu jako odrazu integrace je třeba vzít v úvahu percepční vlastnosti akustické a vizuální složky podnětu.

Prohlášení o střetu zájmů

Autor prohlašuje, že výzkum byl proveden bez jakýchkoli komerčních nebo finančních vztahů, které by mohly být chápány jako potenciální střet zájmů.

Poděkování

Tento výzkum byl financován grantem Helsinské univerzity.

Poznámky

1. ^V celé práci jsou uvedeny pouze některé reprezentativní odkazy jako příklady rozsáhlé literatury k jednotlivým tématům.

Alsius, A., Navarra, J., Campbell, R., and Soto-Faraco, S. (2005). Audiovizuální integrace řeči vázne při vysokých nárocích na pozornost. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Bertelson, P., Vroomen, J., and De Gelder, B. (2003). Vizuální rekalibrace sluchové identifikace řeči: McGurkův afterefekt. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Brancazio, L., Miller, J. L., and Paré, M. A. (2003). Vizuální vlivy na vnitřní strukturu fonetických kategorií. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Ernst, M. O., and Bülthoff, H. H. (2004). Spojení smyslů do robustního vnímání. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Green, K. P., and Norrix, L. W. (1997). Acoustic cues to place of articulation and the McGurk effect: the role of release bursts, aspiration, and formant transitions (Akustické signály pro místo artikulace a McGurkův efekt: role uvolňovacích výbuchů, aspirace a formantových přechodů). J. Speech Lang. Hear. Res. 40, 646-665.

Pubmed Abstract | Pubmed Full Text

Jiang, J., and Bernstein, L. E. (2011). Psychofyzika McGurkova a dalších efektů audiovizuální integrace řeči. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). On the variability of the McGurk effect: audiovisual integration depends on prestimulus brain states [O variabilitě McGurkova efektu: audiovizuální integrace závisí na předimulzních stavech mozku]. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

MacDonald, J., and McGurk, H. (1978). Vizuální vlivy na procesy vnímání řeči. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Massaro, D. W. (1998). Vnímání mluvících tváří. Cambridge, MA: MIT Press.

McGurk, H., and MacDonald, J. (1976). Slyšení rtů a vidění hlasů. Nature 264, 746-748. doi: 10.1038/264746a0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Rosenblum, L. D., and Saldaña, H. M. (1996). Audiovizuální test kinematických primitiv pro vizuální vnímání řeči. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L., and Sams, M. (2012). Audiovizuální vnímání řeči a chování očního pohledu dospělých osob s Aspergerovým syndromem. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., et al. (1991). Vidění řeči: vizuální informace z pohybů rtů modifikuje aktivitu v lidské sluchové kůře. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Schwartz, J. L. (2010). A reanalysis of McGurk data suggests that audiovisual fusion in speech perception is subject-dependent. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Sekiyama, K., and Tohkura, Y. (1991). McGurkův efekt u neanglických posluchačů: málo vizuálních efektů u japonských subjektů slyšících japonské slabiky s vysokou sluchovou srozumitelností. J. Acoust. Soc. Am. 90, 1797-1805.

Pubmed Abstract | Pubmed Full Text

Setti, A., Burke, K. E., Kenny, R., and Newell, F. N. (2013). Vnímavost k multisenzorické iluzi řeči u starších osob je podmíněna percepčními procesy. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Skipper, J. I., van Wassenhove, V., Nusbaum, H. C. a Small, S. L. (2007). Slyšet rty a vidět hlasy: jak korové oblasti podporující produkci řeči zprostředkovávají audiovizuální vnímání řeči. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

Tiippana, K., Andersen, T. S., and Sams, M. (2004). Vizuální pozornost moduluje audiovizuální vnímání řeči. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/09541440340000268

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V. (2013). Řeč ušima a očima: propojení smyslů se supramodálním mozkem. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

van Wassenhove, V., Grant, K. W., and Poeppel, D. (2007). Časové okno integrace při sluchově-vizuálním vnímání řeči. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001

Pubmed Abstract | Pubmed Full Text | CrossRef Full Text

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.