Forståelse af statistiske intervaller: Del 2 – Forudsigelsesintervaller

Del 1 af denne serie behandlede konfidensintervaller. Tillidsintervaller er de bedst kendte af de statistiske intervaller, men de afgrænser kun områder, der er forbundet med populationsparametre; dvs. middelværdien eller standardafvigelsen for en population. Hvad nu, hvis vi i stedet for middelværdien eller standardafvigelsen er interesseret i individuelle observationer fra en population? Til dette formål kan vi gøre brug af forudsigelsesintervallet.

Forudsigelsesintervaller repræsenterer usikkerheden ved at forudsige værdien af en enkelt fremtidig observation eller et fast antal af flere fremtidige observationer fra en population på grundlag af fordelingen eller spredningen af en række tidligere observationer. I lighed med konfidensintervallet bør forudsigelsesintervaller beregnet ud fra en enkelt prøve ikke fortolkes således, at en bestemt procentdel af fremtidige observationer altid vil være indeholdt i intervallet; et forudsigelsesinterval bør snarere fortolkes således, at når det beregnes for et antal på hinanden følgende prøver fra den samme population, vil et forudsigelsesinterval indeholde en fremtidig observation en bestemt procentdel af tiden.

For eksempel: Hvis vi indsamler en stikprøve af observationer og beregner et 95%-prædiktionsinterval baseret på denne stikprøve, er der 95% sandsynlighed for, at en fremtidig observation vil være indeholdt i prædiktionsintervallet. Omvendt er der også en sandsynlighed på 5 % for, at den næste observation ikke vil være indeholdt i intervallet. Hvis vi indsamler 20 stikprøver og beregner et forudsigelsesinterval for hver af dem, kan vi forvente, at 19 af de beregnede intervaller vil indeholde en enkelt fremtidig observation, mens 1 af de beregnede intervaller ikke vil indeholde en enkelt fremtidig observation. Denne fortolkning af forudsigelsesintervallet er afbildet grafisk i figur 1.

Figur 1. Plot af øvre og nedre grænser for forudsigelsesintervaller for 20 prøver, der hver består af 10 pH-målinger udtaget fra den samme population. Plottet omfatter også 20 individuelle fremtidige observationer. Bemærk, at 1 ud af de 20 enkelte fremtidige pH-målinger (indcirklet med rødt) ligger uden for det tilhørende forudsigelsesintervalområde. Dette er på linje med de 5 % af intervallerne, der ikke forventes at indeholde en enkelt fremtidig observation for et konfidensniveau på 95 %.

Forudsigelsesintervaller anvendes oftest i regressionsstatistik, men kan også anvendes med normalt distribuerede data. Beregning af et forudsigelsesinterval for normalfordelte data er meget enklere end det, der kræves for regressionsdata, så vi vil starte der.

Forudsigelsesinterval for normale data

Formlen for et forudsigelsesinterval er næsten identisk med den formel, der bruges til at beregne et konfidensinterval. Husk, at formlen for et tosidet konfidensinterval er

hvor

er stikprøvens gennemsnit, s er stikprøvens standardafvigelse, n er stikprøvens størrelse, 1-a er det ønskede konfidensniveau, oger 100(1-a/2)-percentilen af studentens t-fordeling med n-1 frihedsgrader.

Det eneste, der er nødvendigt for en formel til beregning af et forudsigelsesinterval, er at tilføje et ekstra udtryk for at tage højde for variabiliteten af en enkelt observation omkring middelværdien. Der tages hensyn til denne variabilitet ved at tilføje 1 til 1/n-terminen under kvadratrodssymbolet i ekv. 2. Gør man dette, får man formlen for forudsigelsesinterval for normalfordelte data:

Som eksempel kan vi igen tage et kig på pH-eksemplet fra del I af denne serie. Fra pH-eksemplet har vi følgende data:

Analytikeren ønsker på grundlag af de hidtil indsamlede prøver at kende det tosidede interval, inden for hvilket en enkelt fremtidig pH-observation sandsynligvis vil ligge med en vis grad af sikkerhed. Den gennemsnitlige pH-værdi,

, er i dette eksempel 6,52; prøvens standardafvigelse, s, er 0,11. Det valgte konfidensniveau er 95 % (a=0,05)

Figur 2: Normal sandsynlighedsplot for pH-data.

I modsætning til konfidensintervaller, der kun beskæftiger sig med midten af populationsfordelingen, tager forudsigelsesintervaller hensyn til fordelingens haler såvel som midten. Som følge heraf er forudsigelsesintervaller mere følsomme over for normalitetsantagelsen end konfidensintervaller, og derfor bør normalitetsantagelsen testes før beregning af et forudsigelsesinterval. Normalitetsantagelsen kan testes grafisk og kvantitativt ved hjælp af passende statistisk software, f.eks. Minitab. I dette eksempel indtaster analytikeren dataene i Minitab, hvorefter der genereres en normal sandsynlighedsplot. Den normale sandsynlighedsplot er vist i figur 2.
Hvis man ser på sandsynlighedsplottet kan man se, at alle dataene falder inden for 95 % (1- a) konfidensintervalbåndene. Desuden er P-værdien meget større end signifikansniveauet a = 0,05; derfor vil vi ikke forkaste antagelsen om, at dataene er normalfordelte, og vi kan fortsætte med at beregne forudsigelsesintervallet.

For at beregne intervallet finder analytikeren først værdien

i en offentliggjort tabel over kritiske værdier for studentens t-fordeling ved det valgte konfidensniveau. I dette eksempel,

Dernæst indtastes værdierne for

, s og n i Eqn. 3 for at opnå følgende forudsigelsesinterval:

Intervallet er i dette tilfælde 6,52 ± 0,26 eller, 6,26 – 6,78. Fortolkningen af intervallet er, at hvis på hinanden følgende prøver blev udtaget og testet fra den samme population; dvs, samme batch eller samme partinummer, vil 95 % af de intervaller, der er beregnet for de enkelte prøvesæt, forventes at indeholde en enkelt næste fremtidige pH-måling.

Hvis analytikeren i stedet for en enkelt fremtidig observation ønskede at beregne et tosidet forudsigelsesinterval for at inkludere flere fremtidige observationer, ville analytikeren blot ændre t i Eqn. 3. Selv om der findes nøjagtige metoder til at udlede værdien for t for flere fremtidige observationer, er det i praksis enklere at justere niveauet for t ved at dividere signifikansniveauet, a, med antallet af flere fremtidige observationer, der skal indgå i forudsigelsesintervallet. Dette gøres for at opretholde det ønskede signifikansniveau over hele familien af fremtidige observationer. Så i stedet for at finde værdien for

ville vi finde værdien for, hvor k er antallet af fremtidige observationer, der skal indgå i forudsigelsesintervallet.

Der er også situationer, hvor kun en nedre eller en øvre grænse er af interesse. Tag f.eks. et acceptkriterium, som kun kræver, at en fysisk egenskab ved et materiale skal opfylde eller overstige en minimumsværdi uden nogen øvre grænse for værdien af den fysiske egenskab. I disse tilfælde vil analytikeren ønske at beregne et ensidigt interval. For at beregne et ensidigt interval ville analytikeren simpelthen fjerne 2 fra divisoren; således ville

blive tilogville blive til.

Forudsigelsesinterval for regression

Vi vender os nu til anvendelsen af forudsigelsesintervaller i lineær regressionsstatistik. I lineær regressionsstatistik definerer et forudsigelsesinterval et interval af værdier, inden for hvilket et svar sandsynligvis vil falde i betragtning af en bestemt værdi af en prædiktor. Lineært regresserede data er pr. definition ikke-normalt fordelt. Normalt distribuerede data er statistisk uafhængige af hinanden, mens regressionsdata er afhængige af en prædiktorværdi, dvs. at værdien af Y er afhængig af værdien af X. På grund af denne afhængighed er forudsigelsesintervaller, der anvendes i lineær regressionsstatistik, betydeligt mere komplicerede at beregne end forudsigelsesintervaller for normalt distribuerede data.

Den usikkerhed, som et forudsigelsesinterval repræsenterer, omfatter ikke kun de usikkerheder (variation), der er forbundet med populationsgennemsnittet og den nye observation, men også den usikkerhed, der er forbundet med regressionsparametrene. Da de usikkerheder, der er forbundet med populationsgennemsnittet og den nye observation, er uafhængige af de observationer, der er anvendt til at tilpasse modellen, skal usikkerhedsestimaterne kombineres ved hjælp af root-sum-of-squares for at give den samlede usikkerhed,

. Ved at betegne den variation, som regressionsparametrene bidrager med som, den variation, som estimatet af populationsmiddelværdien bidrager med som, og den variation, som den nye måling bidrager med som s , er den samlede variation,, defineret som:

Hvor

udtrykkes i form af prædiktorerne ved hjælp af følgende forhold:

Ved at tilføje Eqn. 5 til de to andre termer under kvadratroden i Eqn. 3 fås den dobbeltsidede formel for forudsigelsesintervallet for den regresserede responsvariabel

. “Hatten” over y angiver, at variablen er et estimat på grund af usikkerheden i regressionsparametrene, og det indskrevne 0 er et indekstal, der angiver, at y er den første responsvariabel, der er estimeret.

Evalueringen af Eqn. 6 opnås bedst ved hjælp af variansanalyse (ANOVA). Nedenfor er sekvensen af trin, der kan følges for at beregne et forudsigelsesinterval for en regressiv responsvariabel givet en bestemt værdi af en prædiktor.

1. Udarbejd en tabel med rådata og beregn gennemsnit

2. Udarbejd en tabel med summer

3. Beregn hældningen og interceptet for de regresserede data

Ligningerne i trin 3 repræsenterer regressionsparametrene; dvs. hældningen og interceptet, der definerer den bedst tilpassede linje for dataene. Forudsigelsesintervallet for den estimerede responsvariabel,

, skal evalueres ved et bestemt x ved hjælp af relationen. Prædiktionsintervallet sætter derefter det estimerede respons i parentes ved den angivne værdi af x.

Beregn summen af kvadrater og fejltermer

4. Beregn prædiktionsintervallet til at indeholde et enkelt

givet x

For eksempel antages det, at en analytiker har indsamlet rådata for en proces, og at der formodes at eksistere en lineær sammenhæng mellem en prædiktorvariabel betegnet ved x og en responsvariabel betegnet ved

. Analytikeren ønsker med 95 % sikkerhed at vide, i hvilket område en værdi forsandsynligvis vil falde, når en vilkårlig værdi af x er angivet.

I overensstemmelse med den ovenfor beskrevne ANOVA-procedure beregner analytikeren først gennemsnittet af både prædiktorvariablen x og responsvariablen

.

Dernæst udarbejder analytikeren en tabel med summer.

Når tabellen med summer er færdiggjort, fortsætter analytikeren med at beregne hældningen

, interceptet, den samlede sum af kvadrater (SSTotal), summen af kvadrater af residualerne (SSResiduals), summen af kvadrater af fejlen (SSError) og fejlen (Se) for dataene.

Næst beregner analytikeren værdien af responsvariablen,

, ved den ønskede værdi af prædiktorvariablen, x. I dette tilfælde er den ønskede prædiktorværdi 5.

Nu vil det være klogt for analytikeren, inden han beregner forudsigelsesintervallet, at plotte de rå data sammen med det forudsagte respons defineret ved

på et scatter plot for at verificere den lineære sammenhæng. Hvis dataene rent faktisk er lineære, bør dataene følge trendlinjen tæt med omkring halvdelen af punkterne over og halvdelen af punkterne under (se figur 3). Data, der ikke følger tendenslinjen tæt, indikerer, at den lineære sammenhæng er svag, eller at sammenhængen er ikke-lineær, og at der er behov for en anden model for at opnå en passende tilpasning. I dette tilfælde bør man ikke forsøge at beregne et forudsigelsesinterval, før der er fundet en mere hensigtsmæssig model. Hvis forholdet er stærkt lineært, bør en normal sandsynlighedsplot af residualerne også give en P-værdi, der er meget større end det valgte signifikansniveau (et signifikansniveau på 0,05 er typisk). Restværdierne kan let beregnes ved at trække de faktiske responsværdier fra de forudsagte værdier og udarbejde en normal sandsynlighedsplot for restværdierne (se figur 4).

Figur 3: Scatterplot, der viser den lineær-regresserede trendlinje for det estimerede respons.
Figur 4: Normal sandsynlighedsplot for restværdierne. De enkelte residualværdier ligger godt inden for 1-a konfidensintervalbåndene, og P-værdien er meget større end signifikansniveauet a=0,05; derfor vil vi ikke afvise antagelsen om, at residualerne er normalfordelte, og vi kan fortsætte med at beregne forudsigelsesintervallet.

Efter at have fastslået den lineære sammenhæng mellem prædiktor- og responsvariablerne og kontrolleret antagelsen om, at residualerne er normalfordelte, er analytikeren klar til at beregne forudsigelsesintervallet. Analytikeren starter med først at finde den værdi for Student’s t-fordelingen, der svarer til et konfidensniveau på 95 % (dvs. a=0,05). Da analytikeren er interesseret i et tosidet interval, skal a divideres med 2. Den korrekte værdi for t i dette tilfælde, da a/2=0,025 og n-2 = 8, er 2,306.

Med den korrekte værdi for

i hånden beregner analytikeren intervallet ved hjælp af Ekv. 6 og prædiktorværdien på 5.

Figur 5 viser spredningsdiagrammet fra figur 3 med de beregnede øvre og nedre grænser for det beregnede forudsigelsesinterval tilføjet.

Figur 5: Spredningsdiagram med grænser for forudsigelsesintervallet for den estimerede respons, . Prædiktionsværdien i dette tilfælde er 5.

Det interval, der forventes at indeholde den forudsagte værdi for y ved x=5 med 95 % konfidens, er således 19,15 – 32,07. Denne procedure skal gentages for andre værdier af x, fordi den variation, der er forbundet med de estimerede parametre, måske ikke er konstant i hele prædiktorintervallet. F.eks. kan de beregnede forudsigelsesintervaller være mindre ved lavere værdier for x og større ved højere værdier for x.

Denne metode til beregning af et forudsigelsesinterval for lineært-regresserede data fungerer ikke for ikke-lineære sammenhænge. Disse tilfælde kræver transformation af dataene for at efterligne et lineært forhold eller anvendelse af andre statistiske fordelinger til at modellere dataene. Disse metoder er tilgængelige i de fleste statistiske softwarepakker, men en forklaring af disse metoder ligger uden for rammerne af denne artikel.

Slutning

Forudsigelsesintervaller giver et middel til at kvantificere usikkerheden ved en enkelt fremtidig observation fra en population, forudsat at den underliggende fordeling er normal. Prædiktionsintervaller kan oprettes for normalt fordelte data, men egner sig bedst til at kvantificere usikkerheden i forbindelse med et forudsagt svar i lineær regressionsstatistik. Da forudsigelsesintervaller vedrører de enkelte observationer i en population såvel som parameterestimaterne, vil forudsigelsesintervaller nødvendigvis være bredere end et konfidensinterval beregnet for det samme datasæt. Af samme grund er forudsigelsesintervaller også mere modtagelige over for normalitetsantagelsen end konfidensintervaller.

I del III af denne serie vil vi undersøge et interval, der skal dække en bestemt andel af populationen med en given konfidens. Denne type interval kaldes et toleranceinterval og er især nyttig, når målet er at demonstrere en process’ evne til at opfylde specificerede præstationskrav såsom specifikationsgrænser i forbindelse med en kritisk kvalitetskarakteristik for et produkt.

Lær mere om ProPharma Groups procesvalideringstjenester.
Kontakt os for at komme i kontakt med Fred og vores andre fageksperter for at få en skræddersyet procesvalideringsløsning.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.