I del 1 av denna serie diskuterades konfidensintervall. Konfidensintervallerna är de mest kända av de statistiska intervallen, men de avgränsar endast områden som är kopplade till populationsparametrar; dvs. medelvärdet eller standardavvikelsen för en population. Vad händer om vi i stället för medelvärdet eller standardavvikelsen är intresserade av enskilda observationer från en population? För detta kan vi använda oss av prediktionsintervallet.
Prediktionsintervallet representerar osäkerheten i att förutsäga värdet av en enskild framtida observation eller ett fast antal av flera framtida observationer från en population baserat på fördelningen eller spridningen av ett antal tidigare observationer. I likhet med konfidensintervallet bör prediktionsintervall som beräknats från ett enskilt prov inte tolkas så att en viss procentandel av framtida observationer alltid kommer att ingå i intervallet, utan ett prediktionsintervall bör snarare tolkas så att när det beräknas för ett antal på varandra följande prov från samma population, kommer ett prediktionsintervall att innehålla en framtida observation en viss procentandel av gångerna.
Till exempel: Om vi samlar in ett urval av observationer och beräknar ett 95-procentigt prediktionsintervall baserat på detta urval, finns det en 95-procentig sannolikhet att en framtida observation kommer att finnas inom prediktionsintervallet. Omvänt finns det också en sannolikhet på 5 % att nästa observation inte kommer att ingå i intervallet. Om vi samlar in 20 stickprov och beräknar ett prediktionsintervall för varje stickprov kan vi förvänta oss att 19 av de beräknade intervallen kommer att innehålla en enda framtida observation medan 1 av de beräknade intervallen inte kommer att innehålla en enda framtida observation. Denna tolkning av prediktionsintervallet visas grafiskt i figur 1.
Prediktionsintervall används oftast i regressionsstatistik, men kan också användas med normalfördelade data. Beräkningen av ett prediktionsintervall för normalfördelade data är mycket enklare än den som krävs för regressionsdata, så vi börjar där.
Prediktionsintervall för normala data
Formeln för ett prediktionsintervall är nästan identisk med formeln som används för att beräkna ett konfidensintervall. Minns att formeln för ett tvåsidigt konfidensintervall är
där
är provets medelvärde, s är provets standardavvikelse, n är provets storlek, 1-a är den önskade konfidensnivån ochär 100(1-a/2)-percentilen för studentens t-fördelning med n-1 frihetsgrader.
Det enda som behövs för en formel för att beräkna ett prediktionsintervall är att lägga till en extra term för att ta hänsyn till variabiliteten hos en enskild observation kring medelvärdet. Denna variabilitet beaktas genom att lägga till 1 till termen 1/n under kvadratrotsymbolen i Eq 2. Genom att göra detta får man formeln för prediktionsintervall för normalfördelade data:
Som exempel kan vi återigen ta en titt på pH-exemplet från del I av denna serie. Från pH-exemplet har vi följande data:
Analytikern vill veta, baserat på de prover som samlats in hittills, det tvåsidiga intervall inom vilket en enskild framtida pH-observation sannolikt kommer att ligga med en viss konfidensnivå. Det genomsnittliga pH-värdet,
, i detta exempel är 6,52; provets standardavvikelse, s, är 0,11. Den valda konfidensnivån är 95 % (a=0,05)
Till skillnad från konfidensintervaller som endast berör mitten av populationsfördelningen tar prognosintervallerna hänsyn till fördelningens svansar såväl som mitten. Därför är prediktionsintervallerna mer känsliga för normalitetsantagandet än konfidensintervallerna och därför bör normalitetsantagandet testas innan man beräknar ett prediktionsintervall. Normalitetsantagandet kan testas grafiskt och kvantitativt med hjälp av lämplig statistisk programvara som Minitab. I detta exempel matar analytikern in uppgifterna i Minitab och en normal sannolikhetsdiagram skapas. Den normala sannolikhetsplotten visas i figur 2.
Om vi tittar på sannolikhetsplotten kan vi se att alla data faller inom 95 % (1- a) konfidensintervallet. Dessutom är P-värdet mycket större än signifikansnivån a = 0,05. Därför förkastar vi inte antagandet att uppgifterna är normalfördelade och kan fortsätta med att beräkna prediktionsintervallet.
För att beräkna intervallet hittar analytikern först värdet
i en publicerad tabell över kritiska värden för studentens t-fördelning vid den valda konfidensnivån. I detta exempel
Nästan förs värdena för
, s och n in i ekvation 3 för att ge följande prediktionsintervall:
Intervallet är i detta fall 6,52 ± 0,26 eller 6,26 – 6,78. Tolkningen av intervallet är att om på varandra följande prover tas och testas från samma population, dvs, samma batch eller samma partinummer, förväntas 95 % av de intervall som beräknas för de enskilda provuppsättningarna innehålla en enda framtida pH-avläsning.
Om analytikern i stället för en enda framtida observation vill beräkna ett dubbelsidigt prediktionsintervall för att inkludera ett flertal framtida observationer, skulle analytikern helt enkelt modifiera t i Eqn. Även om det finns exakta metoder för att härleda värdet för t för flera framtida observationer, är det i praktiken enklare att justera nivån för t genom att dividera signifikansnivån, a, med antalet framtida observationer som skall ingå i prognosintervallet. Detta görs för att bibehålla den önskade signifikansnivån över hela familjen av framtida observationer. Så istället för att hitta värdet för
skulle vi hitta värdet fördär k är antalet framtida observationer som ska ingå i prediktionsintervallet.
Det finns också situationer där endast en nedre eller övre gräns är av intresse. Ta till exempel ett acceptanskriterium som endast kräver att en fysisk egenskap hos ett material ska uppfylla eller överskrida ett minimivärde utan någon övre gräns för värdet av den fysiska egenskapen. I dessa fall skulle analytikern vilja beräkna ett ensidigt intervall. För att beräkna ett ensidigt intervall skulle analytikern helt enkelt ta bort 2 från divisorn; således skulle
bliochskulle bli.
Prediktionsintervall för regression
Vi övergår nu till tillämpningen av prediktionsintervall i linjär regressionsstatistik. I linjär regressionsstatistik definierar ett prediktionsintervall ett intervall av värden inom vilket ett svar sannolikt kommer att falla givet ett specificerat värde på en prediktor. Data för linjär regression är per definition icke-normalt fördelade. Normalt fördelade data är statistiskt oberoende av varandra medan regredierade data är beroende av ett prediktorvärde, dvs. värdet på Y är beroende av värdet på X. På grund av detta beroende är prediktionsintervall som tillämpas på linjär regressionsstatistik betydligt mer komplicerade att beräkna än prediktionsintervall för normalfördelade data.
Den osäkerhet som representeras av ett prediktionsintervall innefattar inte bara osäkerheterna (variationen) som är förknippade med populationens medelvärde och den nya observationen, utan även osäkerheten förknippad med regressionsparametrarna. Eftersom de osäkerheter som är förknippade med populationsmedelvärdet och den nya observationen är oberoende av de observationer som används för att anpassa modellen måste osäkerhetsskattningarna kombineras med hjälp av root-sum-of-squares för att ge den totala osäkerheten,
. Genom att beteckna den variation som regressionsparametrarna bidrar med som
, den variation som uppskattningen av populationsmedelvärdet bidrar med somoch den variation som den nya mätningen bidrar med som s , definieras den totala variationen,, som:
Varvid
uttrycks i termer av prediktorerna med hjälp av följande relation:
Om man lägger till ekv. 5 till de andra två termerna under kvadratroten i ekv. 3 får man den tvåsidiga formeln för prediktionsintervallet för den regresserade svarsvariabeln
. ”Hatten” över y anger att variabeln är en uppskattning på grund av osäkerheten i regressionsparametrarna och den nedskrivna 0 är ett indexnummer som anger att y är den första uppskattade svarsvariabeln.
Evaluering av Eqn. 6 görs bäst med hjälp av variansanalys (ANOVA). Nedan följer en sekvens av steg som kan följas för att beräkna ett prediktionsintervall för en regresserad responsvariabel givet ett specificerat värde för en prediktor.
1. Förbered en tabell med rådata och beräkna medelvärden
2. Förbered en tabell med summor
3. Beräkna lutningen och interceptet för de regredierade data
Ekvationerna i steg 3 representerar regressionsparametrarna, dvs. lutningen och interceptet som definierar den linje som passar bäst för data. Prognosintervallet för den uppskattade svarsvariabeln
måste utvärderas vid ett angivet x med hjälp av förhållandet. Prediktionsintervallet sätter sedan det uppskattade svaret inom parentes vid det angivna värdet på x.
Beräkna kvadratsumman och feltermerna
4. Beräkna prediktionsintervallet så att det innehåller ett enda
givet x
Trots att en analytiker till exempel har samlat in rådata för en process och att ett linjärt samband misstänks föreligga mellan en prediktorvariabel som betecknas med x och en svarsvariabel som betecknas med
. Analytikern vill med 95 procents säkerhet veta inom vilket område ett värde försannolikt kommer att falla givet ett godtyckligt värde på x. Rådata presenteras nedan.
Följande ANOVA-förfarandet som beskrivs ovan beräknar analytikern först medelvärdet av både prediktorvariabeln x och responsvariabeln
.
Nästan förbereder analytikern en tabell med summor.
Efter att ha färdigställt tabellen med summor fortsätter analytikern med att beräkna lutningen
, interceptet, den totala summan av kvadraterna (SSTotal), summan av kvadraterna av residualerna (SSResiduals), summan av kvadraterna av felet (SSError) och felet (Se) för data.
Nästan beräknar analytikern värdet av svarsvariabeln
vid det önskade värdet av prediktorvariabeln x. I det här fallet är det önskade prediktorvärdet 5.
Nu, innan prediktionsintervallet beräknas, vore det klokt om analytikern plottar de obehandlade data tillsammans med det predikterade svaret definierat av
på ett spridningsdiagram för att verifiera det linjära sambandet. Om uppgifterna faktiskt är linjära bör de följa trendlinjen med ungefär hälften av punkterna ovanför och hälften av punkterna nedanför (se figur 3). Data som inte följer trendlinjen nära visar att det linjära sambandet är svagt eller att sambandet är icke-linjärt och att det krävs någon annan modell för att få en lämplig anpassning. I detta fall bör man inte försöka beräkna ett prediktionsintervall förrän en mer adekvat modell har hittats. Om förhållandet är starkt linjärt bör en normal sannolikhetsdiagram av residualerna ge ett P-värde som är mycket större än den valda signifikansnivån (en signifikansnivå på 0,05 är typisk). Restvärdena kan enkelt beräknas genom att subtrahera de faktiska svarsvärdena från de förutspådda värdena och förbereda en normal sannolikhet för restvärdena (se figur 4).
Efter att ha fastställt det linjära sambandet mellan prediktor- och responsvariablerna och kontrollerat antagandet att restvärdena är normalfördelade, är analytikern redo att beräkna prediktionsintervallet. Analytikern börjar med att först hitta värdet för studentens t-fördelning som motsvarar en konfidensnivå på 95 % (dvs. a=0,05). Eftersom analytikern är intresserad av ett tvåsidigt intervall måste a divideras med 2. Det korrekta värdet för t i detta fall, med tanke på att a/2=0,025 och n-2 = 8, är 2,306.
Med det korrekta värdet för
i handen beräknar analytikern intervallet med hjälp av ekv. 6 och prediktorvärdet 5.
Figur 5 visar spridningsdiagrammet från figur 3 med de beräknade övre och nedre gränserna för det beräknade prediktionsintervallet tillagda.
Det intervall som förväntas innehålla det förutspådda värdet för y vid x=5 med 95 % konfidens är alltså 19,15 – 32,07. Detta förfarande måste upprepas för andra värden på x eftersom den variation som är förknippad med de uppskattade parametrarna kanske inte är konstant i hela prediktorintervallet. Till exempel kan de beräknade prediktionsintervallen vara mindre vid lägre värden för x och större vid högre värden för x.
Denna metod för att beräkna ett prediktionsintervall för linjärregresserade data fungerar inte för icke-linjära förhållanden. I dessa fall krävs omvandling av data för att efterlikna ett linjärt förhållande eller tillämpning av andra statistiska fördelningar för att modellera data. Dessa metoder finns tillgängliga i de flesta statistiska programvarupaket, men en förklaring av dessa metoder ligger utanför ramen för denna artikel.
Slutsats
Prediktionsintervall ger ett sätt att kvantifiera osäkerheten i en enskild framtida observation från en population förutsatt att den underliggande fördelningen är normal. Prediktionsintervall kan skapas för normalfördelade data, men lämpar sig bäst för att kvantifiera osäkerheten i samband med ett förutsagt svar i linjär regressionsstatistik. Eftersom prediktionsintervallen gäller såväl de enskilda observationerna i en population som parameteruppskattningarna, är prediktionsintervallen nödvändigtvis bredare än ett konfidensintervall som beräknats för samma datamängd. Av samma anledning är prediktionsintervallerna också mer känsliga för antagandet om normalitet än konfidensintervallerna.
I del III av denna serie kommer vi att undersöka ett intervall för att täcka en specificerad andel av populationen med en given konfidens. Denna typ av intervall kallas toleransintervall och är särskilt användbart när målet är att visa en process förmåga att uppfylla specificerade prestandakrav, t.ex. specifikationsgränser i samband med en kritisk kvalitetsegenskap för en produkt.
Lär dig mer om ProPharma Groups tjänster för processvalidering.
Kontakta oss för att komma i kontakt med Fred och våra andra ämnesexperter för att få en skräddarsydd lösning för processvalidering.