Înțelegerea intervalelor statistice: Part 2 – Prediction Intervals

Partea 1 a acestei serii a discutat despre intervalele de încredere. Intervalele de încredere sunt cele mai cunoscute dintre intervalele statistice, dar ele delimitează doar regiunile asociate cu parametrii populației; de exemplu, media sau abaterea standard a unei populații. Ce se întâmplă dacă în locul mediei sau abaterii standard suntem interesați de observații individuale dintr-o populație? Pentru aceasta ne putem folosi de intervalul de predicție.

Intervalele de predicție reprezintă incertitudinea prezicerii valorii unei singure observații viitoare sau a unui număr fix de observații viitoare multiple dintr-o populație pe baza distribuției sau dispersiei unui număr de observații anterioare. Similar cu intervalul de încredere, intervalele de predicție calculate pentru un singur eșantion nu trebuie interpretate ca însemnând că un procent specificat de observații viitoare va fi întotdeauna cuprins în interval; mai degrabă, un interval de predicție trebuie interpretat ca însemnând că, atunci când este calculat pentru un număr de eșantioane succesive din aceeași populație, un interval de predicție va conține o observație viitoare într-un procent specificat de timp.

De exemplu: dacă colectăm un eșantion de observații și calculăm un interval de predicție de 95% pe baza acelui eșantion, există o probabilitate de 95% ca o observație viitoare să fie conținută în intervalul de predicție. Invers, există, de asemenea, o probabilitate de 5% ca următoarea observație să nu fie conținută în interval. Dacă colectăm 20 de eșantioane și calculăm un interval de predicție pentru fiecare dintre ele, ne putem aștepta ca 19 dintre intervalele calculate să conțină o singură observație viitoare, în timp ce 1 dintre intervalele calculate nu va conține nicio observație viitoare. Această interpretare a intervalului de predicție este reprezentată grafic în figura 1.

Figura 1. Reprezentarea grafică a limitelor superioare și inferioare ale intervalului de predicție pentru 20 de eșantioane, fiecare constând din 10 măsurători de pH extrase din aceeași populație. Graficul include, de asemenea, 20 observații viitoare individuale. Observați că 1 din cele 20 de citiri individuale viitoare ale pH-ului (încercuită cu roșu) se află în afara regiunii intervalului de predicție asociat. Acest lucru este în concordanță cu cei 5% din intervalele care nu se așteaptă să conțină o singură observație viitoare pentru un nivel de încredere de 95%.

Intervalele de predicție sunt utilizate cel mai frecvent în statisticile de regresie, dar pot fi utilizate și cu date distribuite normal. Calculul unui interval de predicție pentru date distribuite normal este mult mai simplu decât cel necesar pentru datele de regresie, așa că vom începe de aici.

Intervalul de predicție pentru date normale

Formula pentru un interval de predicție este aproape identică cu formula utilizată pentru a calcula un interval de încredere. Reamintim că formula pentru un interval de încredere bilateral este

unde

este media eșantionului, s este abaterea standard a eșantionului, n este dimensiunea eșantionului, 1-a este nivelul de încredere dorit, iareste percentila 100(1-a/2) a distribuției t a studentului cu n-1 grade de libertate.

Tot ceea ce este necesar pentru ca o formulă să calculeze un interval de predicție este să adauge un termen suplimentar pentru a ține cont de variabilitatea unei singure observații în jurul mediei. Această variabilitate este luată în considerare prin adăugarea lui 1 la termenul 1/n de sub simbolul rădăcinii pătrate din Ecuația 2. Procedând astfel, se obține formula intervalului de predicție pentru date distribuite normal:

Ca exemplu, să analizăm din nou exemplul de pH din partea I a acestei serii. Din exemplul de pH avem următoarele date:

Analistul dorește să cunoască, pe baza eșantioanelor colectate până în prezent, intervalul biunivoc în interiorul căruia este probabil ca o singură observație viitoare a pH-ului să se situeze cu un anumit nivel de încredere. pH-ul mediu,

, în acest exemplu este de 6,52; abaterea standard a eșantionului, s, este de 0,11. Nivelul de încredere ales este de 95% (a=0,05)

Figura 2: Graficul de probabilitate normală pentru datele de pH.

În comparație cu intervalele de încredere care sunt preocupate doar de centrul distribuției populației, intervalele de predicție iau în considerare cozile de distribuție, precum și centrul. Ca urmare, intervalele de predicție au o sensibilitate mai mare la ipoteza normalității decât intervalele de încredere și, prin urmare, ipoteza normalității trebuie testată înainte de a calcula un interval de predicție. Ipoteza normalității poate fi testată grafic și cantitativ cu ajutorul unui software statistic adecvat, cum ar fi Minitab. Pentru acest exemplu, analistul introduce datele în Minitab și este generat un grafic de probabilitate normală. Graficul de probabilitate normală este prezentat în figura 2.
Urmărind graficul de probabilitate, putem observa că toate datele se încadrează în benzile intervalului de încredere de 95% (1- a). În plus, valoarea P este mult mai mare decât nivelul de semnificație de a = 0,05; prin urmare, nu vom respinge ipoteza că datele sunt distribuite normal și putem trece la calcularea intervalului de predicție.

Pentru a calcula intervalul, analistul găsește mai întâi valoarea

într-un tabel publicat de valori critice pentru distribuția t a studentului la nivelul de încredere ales. În acest exemplu,

În continuare, valorile pentru

, s și n sunt introduse în Eqn. 3 pentru a obține următorul interval de predicție:

Intervalul în acest caz este 6,52 ± 0,26 sau, 6,26 – 6,78. Interpretarea intervalului este că, dacă eșantioanele succesive au fost prelevate și testate din aceeași populație; adică, același lot sau același număr de lot, este de așteptat ca 95% din intervalele calculate pentru seturile de probe individuale să conțină o singură citire viitoare a pH-ului.

Dacă, în loc de o singură observație viitoare, analistul a dorit să calculeze un interval de predicție cu două fețe pentru a include un număr multiplu de observații viitoare, analistul ar modifica pur și simplu t din ecuația Eqn. 3. Deși există metode exacte de obținere a valorii lui t pentru mai multe observații viitoare, în practică este mai simplu să se ajusteze nivelul lui t prin împărțirea nivelului de semnificație, a, la numărul de observații viitoare multiple care urmează să fie incluse în intervalul de predicție. Acest lucru se face pentru a menține nivelul de semnificație dorit pentru întreaga familie de observații viitoare. Astfel, în loc să găsim valoarea pentru

, vom găsi valoarea pentru, unde k este numărul de observații viitoare care urmează să fie incluse în intervalul de predicție.

Există, de asemenea, situații în care este de interes doar o limită inferioară sau superioară. Să luăm, de exemplu, un criteriu de acceptare care cere doar ca o proprietate fizică a unui material să îndeplinească sau să depășească o valoare minimă, fără o limită superioară a valorii proprietății fizice. În aceste cazuri, analistul ar dori să calculeze un interval unilateral. Pentru a calcula un interval unilateral, analistul ar trebui pur și simplu să elimine 2 din divizor; astfel,

ar devenișiar deveni.

Interval de predicție pentru regresie

Vom trece acum la aplicarea intervalelor de predicție în statistica regresiei liniare. În statistica regresiei liniare, un interval de predicție definește un interval de valori în care este probabil ca un răspuns să se încadreze având în vedere o valoare specificată a unui predictor. Datele de regresie liniară sunt, prin definiție, distribuite în mod nenormal. Datele distribuite în mod normal sunt independente din punct de vedere statistic unele față de altele, în timp ce datele regresate depind de valoarea unui predictor; adică, valoarea lui Y depinde de valoarea lui X. Din cauza acestei dependențe, intervalele de predicție aplicate la statistica regresiei liniare sunt considerabil mai complicate de calculat decât intervalele de predicție pentru datele distribuite în mod normal.

Incertitudinea reprezentată de un interval de predicție include nu numai incertitudinile (variația) asociate cu media populației și cu noua observație, ci și incertitudinea asociată cu parametrii de regresie. Deoarece incertitudinile asociate cu media populației și cu noua observație sunt independente de observațiile utilizate pentru ajustarea modelului, estimările de incertitudine trebuie să fie combinate cu ajutorul sumei rădăcinilor pătratelor pentru a obține incertitudinea totală,

. Denumindu-se variația contribuită de parametrii de regresie ca, variația contribuită de estimarea mediei populației cași variația contribuită de noua măsurătoare ca s , variația totală,, se definește astfel:

Unde

se exprimă în termeni de predictori folosind următoarea relație:

Adăugând Ecuația 5 la ceilalți doi termeni de sub rădăcina pătrată din Ecuația 3, se obține formula intervalului de predicție bilaterală pentru variabila de răspuns regresată

. „Pălăria” de deasupra lui y indică faptul că variabila este o estimare datorată incertitudinii parametrilor de regresie, iar indicele 0 este un număr de indice care indică faptul că y este prima variabilă de răspuns estimată.

Evaluarea ecuației 6 se realizează cel mai bine cu ajutorul analizei de varianță (ANOVA). Mai jos este prezentată secvența de pași care poate fi urmată pentru a calcula un interval de predicție pentru o variabilă de răspuns regresată, dată fiind o valoare specificată a unui predictor.

1. Pregătiți un tabel de date brute și calculați mediile

2. Pregătiți un tabel de sume

3. Calculați panta și intercepția datelor regresate

Ecuațiile din etapa 3 reprezintă parametrii de regresie; adică panta și intercepția care definesc linia de cea mai bună potrivire pentru date. Intervalul de predicție pentru variabila de răspuns estimată,

, trebuie să fie evaluat la un x specificat folosind relația. Intervalul de predicție pune apoi între paranteze răspunsul estimat la valoarea specificată a lui x.

Calculați suma pătratelor și termenii de eroare

4. Calculați intervalul de predicție pentru a conține un singur

dat x

De exemplu, să presupunem că un analist a colectat date brute pentru un proces și se suspectează că există o relație liniară între o variabilă predictor notată cu x și o variabilă răspuns notată cu

. Analistul dorește să cunoască, cu un grad de încredere de 95%, regiunea în care este probabil ca o valoare pentrusă se încadreze, dată fiind o valoare arbitrară a lui x. Datele brute sunt prezentate mai jos.

În conformitate cu procedura ANOVA prezentată mai sus, analistul calculează mai întâi media atât a variabilei predictor, x, cât și a variabilei răspuns,

.

În continuare, analistul pregătește un tabel al sumelor.

După completarea tabelului sumelor, analistul procedează la calcularea Pantei

, a Intercepției, a Sumei totale a pătratelor (SSTotal), a Sumei pătratelor reziduurilor (SSResiduals), a Sumei pătratelor erorilor (SSError) și a Erorii (Se) pentru date.

În continuare, analistul calculează valoarea variabilei răspuns,

, la valoarea dorită a variabilei predictor, x. În acest caz, valoarea predictor dorită este 5.

Acum, înainte de a calcula intervalul de predicție, ar fi înțelept ca analistul să reprezinte grafic datele brute împreună cu răspunsul predictiv definit de

pe un grafic de dispersie pentru a verifica relația liniară. Dacă datele sunt, de fapt, liniare, datele ar trebui să urmărească îndeaproape linia de tendință, cu aproximativ jumătate din puncte deasupra și jumătate din puncte dedesubt (a se vedea figura 3). Datele care nu urmăresc îndeaproape linia de tendință indică faptul că relația liniară este slabă sau că relația este neliniară și că este necesar un alt model pentru a obține o potrivire adecvată. În acest caz, nu trebuie să se încerce calcularea unui interval de predicție până când nu se găsește un model mai adecvat. De asemenea, în cazul în care relația este puternic liniară, un grafic de probabilitate normală a reziduurilor ar trebui să producă o valoare P mult mai mare decât nivelul de semnificație ales (un nivel de semnificație de 0,05 este tipic). Reziduurile pot fi calculate cu ușurință prin scăderea valorilor reale ale răspunsului din valorile prezise și prin pregătirea unui grafic de probabilitate normală a valorilor reziduale (a se vedea figura 4).

Figura 3: Grafic de dispersie care arată linia de tendință cu regresie liniară pentru răspunsul estimat.
Figura 4: Grafic de probabilitate normală a reziduurilor. Valorile individuale ale reziduurilor se încadrează bine în benzile intervalului de încredere 1-a, iar valoarea P este mult mai mare decât nivelul de semnificație de a=0,05; prin urmare, nu vom respinge ipoteza că reziduurile sunt distribuite normal și putem continua cu calcularea intervalului de predicție.

După stabilirea relației liniare dintre predictor și variabilele de răspuns și verificarea ipotezei că reziduurile sunt distribuite normal, analistul este pregătit să calculeze intervalul de predicție. Analistul începe prin a găsi mai întâi valoarea pentru distribuția t a lui Student care echivalează cu un nivel de încredere de 95% (adică, a=0,05). Deoarece analistul este interesat de un interval cu două fețe, a trebuie împărțit la 2. Valoarea corectă pentru t în acest caz, având în vedere că a/2=0,025 și n-2 = 8, este 2,306.

Cu valoarea corectă pentru

în mână, analistul calculează intervalul folosind ecuația 6 și valoarea predictorului de 5.

Figura 5 prezintă diagrama de dispersie din figura 3, la care se adaugă limitele superioare și inferioare ale intervalului de predicție calculat.

Figura 5: Diagrama de dispersie cu limitele intervalului de predicție pentru răspunsul estimat, . Valoarea predictorului în acest caz este 5.

Atunci, intervalul așteptat să conțină valoarea prezisă pentru y la x=5 cu un grad de încredere de 95% este 19,15 – 32,07. Această procedură trebuie repetată pentru alte valori ale lui x, deoarece variația asociată cu parametrii estimați poate să nu fie constantă de-a lungul intervalului predictorului. De exemplu, intervalele de predicție calculate pot fi mai mici la valori mai mici pentru x și mai mari pentru valori mai mari ale lui x.

Această metodă de calculare a unui interval de predicție pentru date cu regresie liniară nu funcționează în cazul relațiilor neliniare. Aceste cazuri necesită transformarea datelor pentru a emula o relație liniară sau aplicarea altor distribuții statistice pentru a modela datele. Aceste metode sunt disponibile în majoritatea pachetelor de software statistic, dar explicarea acestor metode depășește scopul acestui articol.

Concluzie

Intervalele de predicție oferă un mijloc de cuantificare a incertitudinii unei singure observații viitoare dintr-o populație, cu condiția ca distribuția de bază să fie normală. Intervalele de predicție pot fi create pentru date distribuite normal, dar sunt cele mai potrivite pentru cuantificarea incertitudinii asociate cu un răspuns prezis în statisticile de regresie liniară. Deoarece intervalele de predicție se referă atât la observațiile individuale dintr-o populație, cât și la estimările parametrilor, intervalele de predicție vor fi în mod necesar mai largi decât un interval de încredere calculat pentru același set de date. Din același motiv, intervalele de predicție sunt, de asemenea, mai sensibile la ipoteza normalității decât intervalele de încredere.

În partea a III-a a acestei serii vom examina un interval care să acopere o proporție specificată din populație cu o anumită încredere. Acest tip de interval se numește Interval de toleranță și este deosebit de util atunci când scopul este de a demonstra capacitatea unui proces de a îndeplini cerințele de performanță specificate, cum ar fi limitele de specificație asociate cu o caracteristică critică de calitate a produsului.

Aflați mai multe despre serviciile de validare a proceselor oferite de ProPharma Group.
Contactați-ne pentru a intra în contact cu Fred și cu ceilalți experți în domeniu pentru o soluție personalizată de validare a proceselor.

Lasă un răspuns

Adresa ta de email nu va fi publicată.