McGurk ja MacDonald (1976) raportoivat voimakkaasta multisensorisesta illuusiosta, joka esiintyy audiovisuaalisen puheen yhteydessä. He nauhoittivat konsonanttia artikuloivan äänen ja dubasivat sen toista konsonanttia artikuloivilla kasvoilla. Vaikka akustinen puhesignaali tunnistettiin hyvin yksinään, se kuultiin toisena konsonanttina sen jälkeen, kun se oli synkronoitu epäjohdonmukaisen visuaalisen puheen kanssa. Harhaa on kutsuttu McGurk-ilmiöksi. Se on toistettu useita kertoja, ja se on herättänyt runsaasti tutkimusta. Syy suureen vaikutukseen on se, että kyseessä on silmiinpistävä osoitus moniaistisesta integraatiosta. Se osoittaa, että auditiivinen ja visuaalinen informaatio sulautuvat yhdeksi yhtenäiseksi, integroituneeksi käsitykseksi. Se on erittäin hyödyllinen tutkimusväline, koska McGurk-efektin voimakkuuden voidaan katsoa heijastavan audiovisuaalisen integraation voimakkuutta.
Tässä esitän kaksi pääväittämää McGurk-efektin määritelmästä ja tulkinnasta, koska niillä on merkitystä sen käytölle moniaistisen integraation mittarina. Ensinnäkin McGurk-ilmiö olisi määriteltävä epäjohdonmukaisen visuaalisen puheen aiheuttamaksi kategoriseksi muutokseksi kuulohavainnossa, joka johtaa yksittäiseen havaintoon siitä, että kuulee jotain muuta kuin mitä ääni sanoo. Toiseksi McGurk-ilmiötä tulkittaessa on ratkaisevan tärkeää ottaa huomioon unisensoristen akustisten ja visuaalisten ärsykekomponenttien havaitseminen.
McGurk-ilmiöstä on monia muunnelmia (McGurk ja MacDonald, 1976; MacDonald ja McGurk, 1978)1. Tunnetuin tapaus on, kun ääniäänen sanomisen dubbaaminen kasvojen päälle artikuloiden johtaa kuuloon . Tätä kutsutaan fuusioefektiksi, koska havainto eroaa akustisesta ja visuaalisesta komponentista. Monet tutkijat ovat määritelleet McGurkin efektin yksinomaan fuusioefektiksi, koska tässä integraatio johtaa kolmannen konsonantin havaitsemiseen, jolloin ilmeisesti yhdistyvät kuulon ja näön tiedot (van Wassenhove et al., 2007; Keil et al., 2012; Setti et al., 2013). Tämä määritelmä jättää huomiotta sen, että muut epäjohdonmukaiset audiovisuaaliset ärsykkeet tuottavat erityyppisiä havaintoja. Esimerkiksi näiden konsonanttien käänteinen yhdistelmä, AV, kuullaan , eli visuaalinen ja auditiivinen komponentti peräkkäin. On muitakin parituksia, jotka johtavat kuulemiseen visuaalisen komponentin mukaan, esim. visuaalisen kanssa esitetty akustinen kuullaan . Tässä ensimmäinen väitteeni on, että McGurk-efektin määritelmän pitäisi olla se, että akustinen lausuma kuullaan toisena lausumana, kun se esitetään diskrepanttisen visuaalisen artikulaation kanssa. Tämä määritelmä sisältää kaikki illuusion variantit, ja sitä ovat käyttäneet MacDonald ja McGurk (1978) itse sekä useat muut (esim. Rosenblum ja Saldaña, 1996; Brancazio et al., 2003). McGurk-efektin eri variantit edustavat audiovisuaalisen integraation tulosta. Kun integraatio tapahtuu, tuloksena on yhtenäinen käsitys, eikä käsitykseen vaikuttaneita yksittäisiä komponentteja ole saatavilla. Näin ollen McGurk-efektin esiintyessä havaitsijalla on subjektiivinen kokemus tietyn lausuman kuulemisesta, vaikka akustisesti esitetään toinen lausuma.
Tämän McGurk-efektin tulkinnan haasteena on se, että on mahdotonta olla varma siitä, että havaitsijan antamat vastaukset vastaavat todellisia havaintoja. Todellinen McGurk-ilmiö syntyy multisensorisen integraation seurauksena, mikä johtaa muuttuneeseen kuulohavaintoon. Jos integraatiota ei kuitenkaan tapahdu, havainnoitsija voi havaita osatekijät erikseen ja voi halutessaan reagoida joko sen mukaan, mitä hän kuuli, tai sen mukaan, mitä hän näki. Tämä on yksi syy siihen, miksi fuusiovaikutus on niin houkutteleva: Jos havainnoitsija raportoi havaintonsa, joka eroaa molemmista ärsykekomponenteista, hän ei näytä luottavan pelkästään kumpaankaan modaliteettiin, vaan sulauttaa oikeasti molemmista saadun tiedon. Tämä lähestymistapa ei kuitenkaan takaa suoraviivaista integraation mittaamista sen enempää kuin muutkaan illuusion variantit, kuten jäljempänä väitetään.
Toinen pääväite tässä on, että akustisten ja visuaalisten ärsykekomponenttien havaitseminen on otettava huomioon McGurk-ilmiötä tulkittaessa. Tätä asiaa on käsitelty aiemmin Massaron ja kollegoiden (Massaro, 1998) ja muiden (Sekiyama ja Tohkura, 1991; Green ja Norrix, 1997; Jiang ja Bernstein, 2011) laajassa työssä. Se on tärkeä, koska unisensoristen komponenttien tunnistustarkkuus heijastuu audiovisuaaliseen puhehavaintoon.
Yleisesti McGurkin efektin voimakkuuden katsotaan kasvavan, kun akustisen komponentin mukaisten vastausten osuus pienenee ja/tai kun fuusiovastausten osuus kasvaa. Toisin sanoen McGurkin vaikutusta ärsykkeen AV osalta pidetään voimakkaampana, kun annetaan vähemmän B-vastauksia ja/tai enemmän D-vastauksia. Tämä on usein riittävä tapa mitata McGurkin vaikutuksen voimakkuutta – jos pidetään mielessä, että siinä oletetaan epäsuorasti, että akustisten ja visuaalisten komponenttien havaitseminen on täsmällistä (tai ainakin pysyy vakiona vertailtavien olosuhteiden välillä). Se voi kuitenkin johtaa virheellisiin johtopäätöksiin, jos tämä oletus ei pidä paikkaansa.
Fuusioilmiö on hyvä esimerkki tästä varoituksesta. Sen on tulkittu tarkoittavan, että akustinen ja visuaalinen informaatio integroidaan tuottamaan uudenlainen, välillinen havainto. Esimerkiksi kun AV kuullaan muodossa , käsityksen ajatellaan syntyvän kuulon (bilabiaalinen) ja näön (velaarinen) kautta annettujen (artikulaatiopaikkaa koskevien) piirteiden fuusioitumisen seurauksena, jolloin hahmotetaan erilainen, välikonsonantti (alveolaarinen) (van Wassenhove, 2013). Kuitenkin jo McGurk ja MacDonald (1976) kirjoittivat itse, että ”lip movements for are frequently misread as ,” vaikka he eivät valitettavasti mitanneet puheenlukusuoritusta. Unisensorisen visuaalisen tilan jättäminen pois alkuperäisessä tutkimuksessa on yksi tekijä, joka on vaikuttanut siihen, että fuusiovaikutus on saanut vahvan aseman ainoana todellisena McGurkin vaikutuksena, joka heijastaa todellista integraatiota. Silti, jos visuaalinen sekoitetaan , ei ole lainkaan yllättävää tai erikoista, jos AV koetaan .
Edistääkseni yksiaististen komponenttien osuutta selkeämmin otan kaksi esimerkkiä tutkimuksestani, joissa fuusio-tyyppiset ärsykkeet tuottivat erilaisia käsityksiä riippuen visuaalisen komponentin selkeydestä. Yhdessä tutkimuksessa McGurk-ärsyke AV kuultiin pääasiassa fuusiona (Tiippana et al., 2004). Tämä heijasteli sitä, että pelkän visuaalisen tunnistustehtävässä visuaalinen sekoitettiin (42 % K-vastauksia ja 45 % T-vastauksia visuaaliseen ). Toisessa tutkimuksessa McGurk-ärsykkeen AV kuultiin pääasiassa , ja tämä saattoi johtua siitä, että pelkästään visuaalisessa tunnistustehtävässä visuaalinen oli selvästi erotettavissa , ja näin ollen tunnistettiin erittäin tarkasti (100 % oikein tyypillisillä aikuisilla; Saalasti ym., 2012; mutta huomaa Aspergerin oireyhtymää sairastavien henkilöiden poikkeava käyttäytyminen). Näin ollen, vaikka McGurk-ärsykkeet olivat molemmissa tutkimuksissa fuusiotyyppisiä, niiden havaitseminen erosi suuresti riippuen visuaalisten komponenttien selkeydestä. Nämä havainnot korostavat, kuinka tärkeää on tuntea unisensoristen ärsykkeiden havainto-ominaisuudet ennen kuin tehdään johtopäätöksiä multisensorisesta integraatiosta.
Tarkasti se, miten unisensoristen komponenttien ominaisuudet otetaan huomioon puheen multisensorisessa havaitsemisessa, ei kuulu tämän työn piiriin. Tämän kysymyksen yksityiskohtainen käsittely edellyttää huolellisesti suunniteltuja kokeellisia tutkimuksia (Bertelson et al., 2003; Alsius et al., 2005), laskennallista mallintamista (Massaro, 1998; Schwartz, 2010) ja taustalla olevien aivomekanismien tutkimista (Sams et al., 1991; Skipper et al., 2007). Tärkein ohje on kuitenkin se, että ärsykkeen osien unisensorinen havaitseminen heijastuu kokonaisuuden multisensoriseksi havaitsemiseksi (Ernst ja Bülthoff, 2004).
Kokeissa, joissa tehtävänä on raportoida, mitä kuultiin, havainnoitsija raportoi audiovisuaalisen ärsykkeen herättämän tietoisen kuulohavainnon. Jos multisensorista integraatiota tai vuorovaikutusta ei tapahdu, havainto on identtinen audiovisuaaliselle ärsykkeelle ja yksinään esitetylle auditiiviselle komponentille. Jos audiovisuaalinen integraatio toteutuu, tietoinen kuulohavainto muuttuu. Se, missä määrin visuaalinen panos vaikuttaa havaintoon, riippuu siitä, kuinka johdonmukaista ja luotettavaa tietoa kukin modaliteetti tarjoaa. Koherentti informaatio integroidaan ja painotetaan esim. kunkin modaliteetin luotettavuuden mukaan, mikä heijastuu unisensoriseen erottelukykyyn.
Tämä havaintoprosessi on sama audiovisuaaliselle puheelle – olipa kyse luonnollisesta, kongruentista audiovisuaalisesta puheesta tai keinotekoisesta, inkongruentista McGurk-puheärsykkeestä. Tuloksena on tietoinen auditiivinen havainto. Kuulon ja näön suhteellisesta painotuksesta riippuen McGurk-ärsykkeiden lopputulos voi vaihdella akustisen komponentin mukaisesta kuulemisesta (kun kuulo on luotettavampi kuin näkö) fuusio- ja yhdistelmähavaintoihin (kun molemmat modaliteetit ovat jossain määrin informatiivisia) visuaalisen komponentin mukaiseen kuulemiseen (kun näkö on luotettavampi kuin kuulo). Kongruenttiin audiovisuaaliseen puheeseen ei suhtauduta eri tavalla, vaan siinä näkyy visuaalinen vaikutus, kun auditiivinen luotettavuus vähenee. McGurk-efektin eri variantit ovat kaikki tämän saman havaintoprosessin tuloksia ja heijastavat audiovisuaalista integraatiota.
McGurk-efekti on erinomainen väline tutkia moniaistista integraatiota puheen havaitsemisessa. Tämän mielipidekirjoituksen pääviestit ovat ensinnäkin se, että McGurk-ilmiö olisi määriteltävä inkongruentin visuaalisen puheen aiheuttamaksi auditiivisen havaitsemisen muutokseksi siten, että havainnoitsijat kuulevat toisenlaisen puheäänen kuin mitä ääni lausui, ja toiseksi se, että akustisten ja visuaalisten ärsykekomponenttien havainto-ominaisuudet olisi otettava huomioon, kun McGurk-ilmiötä tulkitaan integraatiota heijastavaksi.
Esintressiristiriitoja koskeva lausunto
Tekijä vakuuttaa, että tutkimus tehtiin ilman kaupallisia tai taloudellisia suhteita, jotka voitaisiin tulkita mahdolliseksi eturistiriidaksi.
Kiitokset
Tämä tutkimus rahoitettiin Helsingin yliopiston apurahalla.
Footnotes
1. ^Kauttaaltaan tässä työssä mainitaan vain joitakin edustavia viitteitä esimerkkeinä kutakin aihetta koskevasta laajasta kirjallisuudesta.
Alsius, A., Navarra, J., Campbell, R., ja Soto-Faraco, S. (2005). Puheen audiovisuaalinen integrointi horjuu suurissa tarkkaavaisuusvaatimuksissa. Curr. Biol. 15, 839-843. doi: 10.1016/j.cub.2005.03.046
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Bertelson, P., Vroomen, J. ja De Gelder, B. (2003). Auditiivisen puheen tunnistamisen visuaalinen uudelleenkalibrointi: McGurkin jälkivaikutus. Psychol. Sci. 14, 592-597. doi: 10.1046/j.0956-7976.2003.psci_1470.x
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Brancazio, L., Miller, J. L., ja Paré, M. A. (2003). Visuaaliset vaikutukset foneettisten kategorioiden sisäiseen rakenteeseen. Percept. Psychophys. 65, 591-601. doi: 10.3758/BF03194585
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Ernst, M. O., ja Bülthoff, H. H. (2004). Aistien yhdistäminen kestäväksi havaintokyvyksi. Trends Cogn. Sci. 8, 162-169. doi: 10.1016/j.tics.2004.02.002
Pubmed Abstract | Pubmed Full Text | Pubmed Full Text | CrossRef Full Text
Green, K. P., and Norrix, L. W. (1997). Akustiset vihjeet artikulaatiopaikasta ja McGurk-ilmiö: vapautumispurkausten, aspiraation ja formanttien siirtymien merkitys. J. Speech Lang. Hear. Res. 40, 646-665.
Pubmed Abstract | Pubmed Full Text
Jiang, J., and Bernstein, L. E. (2011). McGurkin ja muiden audiovisuaalisten puheintegraatiovaikutusten psykofysiikka. J. Exp. Psychol. Hum. Percept. Perform. 37, 1193-1209. doi: 10.1037/a0023100
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Keil, J., Muller, N., Ihssen, N., and Weisz, N. (2012). McGurk-ilmiön vaihtelevuudesta: audiovisuaalinen integrointi riippuu prestimulus-aivojen tiloista. Cereb. Cortex 22, 221-231. doi: 10.1093/cercor/bhr125
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
MacDonald, J., ja McGurk, H. (1978). Visuaaliset vaikutukset puheen havaitsemisprosesseihin. Percept. Psychophys. 24, 253-257. doi: 10.3758/BF03206096
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Massaro, D. W. (1998). Puhuvien kasvojen havaitseminen. Cambridge, MA: MIT Press.
McGurk, H., ja MacDonald, J. (1976). Huulten kuuleminen ja äänten näkeminen. Nature 264, 746-748. doi: 10.1038/264746a0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Rosenblum, L. D., and Saldaña, H. M. (1996). Audiovisuaalinen testi visuaalisen puhehavainnon kinemaattisten primitiivien testaamiseksi. J. Exp. Psychol. Hum. Percept. Perform. 22, 318-331. doi: 10.1037/0096-1523.22.2.318
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Saalasti, S., Kätsyri, J., Tiippana, K., Laine-Hernandez, M., von Wendt, L. ja Sams, M. (2012). Aspergerin oireyhtymää sairastavien aikuisten audiovisuaalinen puhehavainnointi ja katsekäyttäytyminen. J. Autism Dev. Disord. 42, 1606-1615. doi: 10.1007/s10803-011-1400-0
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Hari, Hari, Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R., Hari, R. Puheen näkeminen: huulien liikkeistä saatu visuaalinen informaatio muuttaa ihmisen kuuloaivokuoren aktiivisuutta. Neurosci. Lett. 127, 141-145. doi: 10.1016/0304-3940(91)90914-F
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Schwartz, J. L. (2010). McGurk-tietojen uudelleenanalyysi viittaa siihen, että audiovisuaalinen fuusio puheen havaitsemisessa on subjektiriippuvainen. J. Acoust. Soc. Am. 127, 1584-1594. doi: 10.1121/1.3293001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Sekiyama, K., and Tohkura, Y. (1991). McGurk-ilmiö ei-englanninkielisillä kuuntelijoilla: vähän visuaalisia vaikutuksia japanilaisilla koehenkilöillä, jotka kuuntelevat japanilaisia tavuja, joiden auditiivinen ymmärrettävyys on korkea. J. Acoust. Soc. Am. 90, 1797-1805.
Pubmed Abstract | Pubmed Full Text
Setti, A., Burke, K. E., Kenny, R., ja Newell, F. N. (2013). Herkkyys moniaistiselle puheilluusiolle iäkkäillä henkilöillä johtuu havaintoprosesseista. Front. Psychol. 4:575. doi: 10.3389/fpsyg.2013.00575
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Skipper, J. I., van Wassenhove, V., Nusbaum, H. C. ja Small, S. L. (2007). Hearing lips and seeing voices: how cortical areas supporting speech production mediate audiovisual speech perception. Cereb. Cortex 17, 2387-2399. doi: 10.1093/cercor/bhl147
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
Tiippana, K., Andersen, T. S., ja Sams, M. (2004). Visuaalinen huomio moduloi audiovisuaalista puheen havaitsemista. Eur. J. Cogn. Psychol. 16, 457-472. doi: 10.1080/0954144040340000268
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V. (2013). Puhe korvien ja silmien kautta: aistien liittäminen supramodaalisiin aivoihin. Front. Psychol. 4:388. doi: 10.3389/fpsyg.2013.00388
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text
van Wassenhove, V., Grant, K. W., and Poeppel, D. (2007). Integraation ajallinen ikkuna auditiivis-visuaalisessa puheen havaitsemisessa. Neuropsychologia 45, 598-607. doi: 10.1016/j.neuropsychologia.2006.01.001
Pubmed Abstract | Pubmed Full Text | CrossRef Full Text