Understanding Statistical Intervals: Part 2 – Prediction Intervals

Tämän sarjan ensimmäisessä osassa käsiteltiin luottamusvälejä. Luottamusvälit ovat tilastollisista väleistä tunnetuimpia, mutta ne rajaavat vain populaatioparametreihin liittyviä alueita; eli populaation keskiarvoa tai keskihajontaa. Entä jos keskiarvon tai keskihajonnan sijasta olemme kiinnostuneita yksittäisistä havainnoista populaatiosta? Tätä varten voimme hyödyntää ennustusväliä.

Ennustusväli edustaa epävarmuutta, joka liittyy yksittäisen tulevan havainnon tai kiinteän määrän useiden tulevien havaintojen arvon ennustamiseen populaatiosta useiden aikaisempien havaintojen jakauman tai hajonnan perusteella. Samoin kuin luottamusväliä, yhdestä näytteestä laskettuja ennustevälejä ei pitäisi tulkita siten, että tietty prosenttiosuus tulevista havainnoista sisältyy aina väliin; ennemminkin ennusteväliä pitäisi tulkita siten, että kun se lasketaan useille peräkkäisille näytteille samasta populaatiosta, ennusteväli sisältää tulevan havainnon tietyn prosenttiosuuden ajasta.

Esimerkiksi: jos keräämme otoksen havaintoja ja laskemme 95 %:n ennustevälin tuon otoksen perusteella, on 95 %:n todennäköisyys, että tuleva havainto sisältyy ennustevälin sisälle. Kääntäen, on myös 5 % todennäköisyys, että seuraava havainto ei sisälly ennustusväliin. Jos keräämme 20 näytettä ja laskemme ennustusvälin jokaiselle näytteelle, voimme odottaa, että 19 lasketuista väleistä sisältää yhden tulevan havainnon, kun taas yksi lasketuista väleistä ei sisällä yhtään tulevaa havaintoa. Tämä ennustevälin tulkinta on esitetty graafisesti kuvassa 1.

Kuva 1. Ylemmän ja alemman ennustusvälin rajojen kuvaaja 20 näytteelle, joista kukin koostuu 10 pH-mittauksesta, jotka on poimittu samasta populaatiosta. Kuvaaja sisältää myös 20 yksittäistä tulevaa havaintoa. Huomaa, että yksi 20 yksittäisestä tulevasta pH-lukemasta (ympyröity punaisella) on siihen liittyvän ennustusvälin alueen ulkopuolella. Tämä on linjassa sen kanssa, että 5 %:n väleistä ei odoteta sisältävän yksittäistä tulevaa havaintoa 95 %:n luottamustasolla.

Ennustusvälejä käytetään yleisimmin regressiotilastoissa, mutta niitä voidaan käyttää myös normaalijakautuneiden tietojen kanssa. Ennustusvälin laskeminen normaalisti jakautuneelle aineistolle on paljon yksinkertaisempaa kuin regressiodatan laskeminen, joten aloitamme siitä.

Prediction Interval for Normal Data

Ennustusvälin kaava on lähes identtinen luottamusvälin laskemiseen käytettävän kaavan kanssa. Muistutetaan, että kaksipuolisen luottamusvälin kaava on

missä

on otoksen keskiarvo, s on otoksen keskihajonta, n on otoskoko, 1-a on haluttu luottamustaso ja

on opiskelijan t-jakauman 100(1-a/2)-prosenttiarvo, jossa on n-1 vapausastetta.

Ennustusväliä laskevaan kaavaan tarvitsee vain lisätä ylimääräinen termi, joka ottaa huomioon yksittäisen havainnon vaihtelun keskiarvon suhteen. Tämä vaihtelu otetaan huomioon lisäämällä 1 yhtälön 2 neliöjuurisymbolin alla olevaan 1/n-termiin. Näin toimimalla saadaan ennustusvälikaava normaalisti jakautuneelle aineistolle:

Katsotaanpa esimerkkinä vielä kerran tämän sarjan ensimmäisessä osassa esitettyä pH-esimerkkiä. pH-esimerkistä meillä on seuraavat tiedot:

Analyytikko haluaa tietää tähän mennessä kerättyjen näytteiden perusteella sen kaksipuolisen ennustusvälin, jonka sisällä yksittäinen tuleva pH-havainto todennäköisesti sijaitsee tietyllä luotettavuustasolla. Keskimääräinen pH,

, on tässä esimerkissä 6,52; näytteen keskihajonta, s, on 0,11. Luottamustasoksi on valittu 95 % (a=0,05)

Kuva 2: Normaali todennäköisyysdiagrammi pH-tiedoille.

Toisin kuin luottamusvälit, jotka koskevat vain populaatiojakauman keskikohtaa, ennustevälit ottavat huomioon jakauman hännät sekä keskikohdan. Tämän seurauksena ennustusvälit ovat herkempiä normaalisuusolettamukselle kuin luottamusvälit, ja siksi normaalisuusolettamus olisi testattava ennen ennustusvälin laskemista. Normaalisuusoletus voidaan testata graafisesti ja kvantitatiivisesti käyttämällä sopivaa tilasto-ohjelmaa, kuten Minitabia. Tässä esimerkissä analyytikko syöttää tiedot Minitab-ohjelmaan ja luodaan normaali todennäköisyysdiagrammi. Normaalitodennäköisyysdiagrammi on esitetty kuvassa 2.
Todennäköisyysdiagrammia tarkasteltaessa nähdään, että kaikki tiedot sijoittuvat 95 prosentin (1- a) luottamusvälialueille. Lisäksi P-arvo on paljon suurempi kuin merkitsevyystaso a = 0,05. Näin ollen emme hylkää olettamusta, että tiedot ovat normaalisti jakautuneita, ja voimme jatkaa ennustusvälin laskemista.

Välin laskemiseksi analyytikko etsii ensin arvon

julkaistusta taulukosta, joka sisältää kriittiset arvot opiskelijan t-jakaumalle valitulla luottamustasolla. Tässä esimerkissä

Seuraavaksi

, s:n ja n:n arvot syötetään yhtälöön 3, jolloin saadaan seuraava ennusteväli:

Väli on tässä tapauksessa 6,52 ± 0,26 tai, 6,26 – 6,78. Intervallin tulkinta on, että jos peräkkäiset näytteet otettaisiin ja testattaisiin samasta populaatiosta; ts, samasta erästä tai samasta eränumerosta, 95 %:n yksittäisille näytejoukoille lasketuista väleistä odotetaan sisältävän yhden seuraavan tulevan pH-lukeman.

Jos analyytikko haluaisi laskea yhden tulevan havainnon sijaan kaksipuolisen ennustevälin sisältääkseen useamman tulevan havainnon, analyytikko yksinkertaisesti muuttaisi t:tä yhtälössä. 3. Vaikka on olemassa tarkkoja menetelmiä t:n arvon johtamiseksi useille tuleville havainnoille, käytännössä on yksinkertaisempaa säätää t:n tasoa jakamalla merkitsevyystaso a ennustusväliin sisällytettävien useiden tulevien havaintojen lukumäärällä. Näin säilytetään haluttu merkitsevyystaso koko tulevien havaintojen perheessä. Sen sijaan, että siis etsittäisiin arvo

, etsittäisiin arvo, jossa k on ennustusväliin sisällytettävien tulevien havaintojen lukumäärä.

On myös tilanteita, joissa vain ala- tai yläraja on kiinnostava. Otetaan esimerkiksi hyväksymiskriteeri, jossa edellytetään vain, että materiaalin fysikaalisen ominaisuuden on täytettävä tai ylitettävä vähimmäisarvo ilman fysikaalisen ominaisuuden arvon ylärajaa. Näissä tapauksissa analyytikko haluaisi laskea yksipuolisen vaihteluvälin. Laskeakseen yksipuolisen intervallin analyytikko yksinkertaisesti poistaisi 2:n jakajasta; näin

muuttuisi:ksi jamuuttuisi:ksi.

Regressiossa käytettävä ennustusväli

Siirrymme nyt ennustusvälien soveltamiseen lineaarisessa regressiotilastossa. Lineaarisessa regressiotilastossa ennustusväli määrittelee arvoalueen, jolle vaste todennäköisesti sijoittuu, kun ennustajan arvo on määritelty. Lineaarisesti regressoidut tiedot ovat määritelmän mukaan epänormaalisti jakautuneita. Normaalijakautuneet tiedot ovat tilastollisesti toisistaan riippumattomia, kun taas regressiotiedot ovat riippuvaisia ennustajan arvosta, eli Y:n arvo riippuu X:n arvosta. Tämän riippuvuuden vuoksi lineaariseen regressiotilastoon sovellettavien ennustusvälien laskeminen on huomattavasti työläämpää kuin normaalijakautuneiden tietojen ennustusvälien laskeminen.

Ennustusvälien edustama epävarmuus sisältää populaatiokeskiarvoon ja uuteen havainnon arvoon liittyvien epävarmuustekijöiden (variaatio) lisäksi myös regressioparametreihin liittyvän epävarmuuden. Koska populaation keskiarvoon ja uuteen havaintoon liittyvät epävarmuudet ovat riippumattomia mallin sovittamiseen käytetyistä havainnoista, epävarmuusarviot on yhdistettävä neliöiden juurisumman avulla, jotta saadaan kokonaisepävarmuus,

. Kun regressioparametrien aiheuttamaa vaihtelua merkitään, populaatiokeskiarvon estimaatin aiheuttamaa vaihteluaja uuden mittauksen aiheuttamaa vaihtelua s , kokonaisvaihtelu,, määritellään seuraavasti:

Jossa

ilmaistaan ennustajien suhteen seuraavan suhteen avulla:

Lisäämällä yhtälön 5 kahteen muuhun yhtälön 3 neliöjuuren alla olevaan termiin saadaan regressoidun vastemuuttujan

kaksipuolisen ennustusvälin kaava. Hattu y:n yläpuolella osoittaa, että muuttuja on estimaatti, joka johtuu regressioparametrien epävarmuudesta, ja indeksi 0 on indeksiluku, joka osoittaa, että y on ensimmäinen estimoitu vastemuuttuja.

Yhtälön 6 arviointi onnistuu parhaiten varianssianalyysin (ANOVA) avulla. Alla on esitetty vaiheet, joita voidaan noudattaa ennustusvälin laskemiseksi regressoidulle vastemuuttujalle, kun ennustemuuttujalle on annettu tietty arvo.

1. Valitse ennustusväli. Laadi taulukko raakadatasta ja laske keskiarvot

2. Laadi taulukko summista

3. Laske regressoidun datan kaltevuus ja leikkauspiste

Vaiheen 3 yhtälöt edustavat regressioparametreja; eli kaltevuutta ja leikkauspistettä, jotka määrittelevät datalle parhaiten sopivan viivan. Arvioidun vastemuuttujan

ennustusväli on arvioitava tietyllä x:llä käyttäen suhdetta. Ennustusväli sulkee sitten estimoidun vastemuuttujan tiettyyn x:n arvoon.

Lasketaan neliöiden summa ja virhetermit

4. Lasketaan ennustusväli siten, että se sisältää yhden

annetun x:n

Esitetään esimerkiksi, että analyytikko on kerännyt raakadataa jostakin prosessista, ja lineaarista suhdetta epäillään vallitsevan x:llä merkityn ennustemuuttujan ja

:llä merkityn vastemuuttujan välillä. Analyytikko haluaa tietää 95 prosentin varmuudella alueen, jolle:n arvo todennäköisesti osuu, kun x:n arvo on mielivaltainen.

Yllä esitetyn ANOVA-menettelyn mukaisesti analyytikko laskee ensin sekä ennustemuuttujan x että vastemuuttujan

keskiarvon.

Seuraavaksi analyytikko laatii summataulukon.

Summataulukon valmistuttua analyytikko laskee aineistolle kaltevuuden

, leikkauspisteen, neliöiden kokonaissumman (SSTotal), jäännösten neliöiden summan (SSResiduals), virheen neliöiden summan (SSError) ja virheen (Se).

Seuraavaksi analyytikko laskee vastemuuttujan

arvon ennustemuuttujan x halutulla arvolla. Tässä tapauksessa ennustemuuttujan haluttu arvo on 5.

Nyt ennen ennustevälin laskemista analyytikon olisi viisasta piirtää raakadatan ja ennustetun vasteen, joka on määritetty kaavioilla

, hajontakaavio lineaarisen suhteen tarkistamiseksi. Jos tiedot todella ovat lineaarisia, tietojen pitäisi seurata tarkasti trendiviivaa siten, että noin puolet pisteistä on yläpuolella ja puolet alapuolella (ks. kuva 3). Tiedot, jotka eivät noudata tarkasti trendiviivaa, osoittavat, että lineaarinen suhde on heikko tai että suhde on epälineaarinen ja että tarvitaan jokin muu malli riittävän sopivuuden saavuttamiseksi. Tällöin ennustusväliä ei pitäisi yrittää laskea ennen kuin sopivampi malli on löydetty. Jos suhde on vahvasti lineaarinen, jäännösten normaalitodennäköisyysdiagrammin pitäisi antaa P-arvo, joka on paljon suurempi kuin valittu merkitsevyystaso (merkitsevyystaso 0,05 on tyypillinen). Residuaalit voidaan helposti laskea vähentämällä todelliset vastearvot ennustetuista arvoista ja laatimalla jäännösarvojen normaalitodennäköisyysdiagrammi (ks. kuva 4).

Kuva 3: Hajontakuvio, jossa näkyy arvioidun vasteen lineaarisesti regressoitu trendiviiva.

Kuva 4: Jäännösarvojen normaalitodennäköisyysdiagrammi. Yksittäiset residuaaliarvot ovat hyvin 1-a luottamusvälin kaistojen sisällä, ja P-arvo on paljon suurempi kuin merkitsevyystaso a=0,05. Näin ollen emme hylkää olettamusta, jonka mukaan residuaalit ovat normaalisti jakautuneita, ja voimme jatkaa ennustevälin laskemista.

Valmistettuaan lineaarisen suhteen ennustaja- ja vastemuuttujien välille ja tarkistettuaan olettamuksen, jonka mukaan residuaalit ovat normaalisti jakautuneita, analyytikko on valmis laskemaan ennustevälin. Analyytikko aloittaa etsimällä ensin opiskelijan t-jakauman arvon, joka vastaa 95 prosentin luottamustasoa (eli a=0,05). Koska analyytikko on kiinnostunut kaksipuolisesta välistä, a on jaettava 2:lla. Oikea arvo t:lle tässä tapauksessa, kun otetaan huomioon, että a/2=0,025 ja n-2 = 8, on 2,306.

Kun oikea arvo

on käsillä, analyytikko laskee ennustevälin käyttämällä yhtälöä 6 ja ennustajan arvoa 5.

Kuvassa 5 esitetään kuvasta 3 saatu hajontakuvio, johon on lisätty lasketut ennustusvälien ylä- ja alarajat.

Kuvio 5: Hajontakuvio, johon on lisätty estimoidun vasteen ennustusvälien rajat, . Ennustettu arvo on tässä tapauksessa 5.

Siten väli, jonka odotetaan sisältävän ennustetun arvon y:lle arvolla x=5 95 %:n luottamuksella, on 19,15 – 32,07. Tämä menettely on toistettava muille x:n arvoille, koska estimoituihin parametreihin liittyvä vaihtelu ei välttämättä ole vakio koko ennustevälillä. Esimerkiksi lasketut ennustusvälit voivat olla pienempiä x:n pienemmillä arvoilla ja suurempia x:n suuremmilla arvoilla.

Tämä menetelmä ennustusvälin laskemiseksi lineaarisesti regressoiduille tiedoille ei toimi epälineaarisille suhteille. Nämä tapaukset edellyttävät tietojen muuntamista lineaarisen suhteen jäljittelemiseksi tai muiden tilastollisten jakaumien soveltamista tietojen mallintamiseen. Nämä menetelmät ovat saatavilla useimmissa tilastollisissa ohjelmistopaketeissa, mutta niiden selittäminen ei kuulu tämän artikkelin piiriin.

Johtopäätökset

Ennustusvälien avulla voidaan kvantifioida populaatiosta saatavan yksittäisen tulevan havainnon epävarmuutta edellyttäen, että taustalla oleva jakauma on normaali. Ennustusvälejä voidaan luoda normaalisti jakautuneille tiedoille, mutta ne soveltuvat parhaiten ennustettuun vasteeseen liittyvän epävarmuuden kvantifiointiin lineaarisessa regressiotilastossa. Koska ennustevälit koskevat populaation yksittäisiä havaintoja sekä parametrien estimaatteja, ennustevälit ovat väistämättä leveämpiä kuin samasta aineistosta laskettu luottamusväli. Samasta syystä ennustevälit ovat myös alttiimpia normaalisuusolettamukselle kuin luottamusvälit.

Tämän sarjan kolmannessa osassa tarkastelemme intervallia, joka kattaa tietyn osuuden populaatiosta tietyllä luottamuksella. Tämäntyyppistä intervallia kutsutaan toleranssiväliksi, ja se on erityisen hyödyllinen silloin, kun tavoitteena on osoittaa prosessin kyky täyttää määritellyt suorituskykyvaatimukset, kuten tuotteen kriittiseen laatuominaisuuteen liittyvät spesifikaatiorajat.

Lue lisää ProPharma Groupin prosessinvalidointipalveluista.
Ota yhteyttä Frediin ja muihin aihepiirin asiantuntijoihimme räätälöityä prosessinvalidointiratkaisua varten.

Vastaa

Sähköpostiosoitettasi ei julkaista.