Comprendere gli intervalli statistici: Parte 2 – Intervalli di predizione

La Parte 1 di questa serie ha discusso gli intervalli di confidenza. Gli intervalli di confidenza sono i più noti tra gli intervalli statistici, ma delimitano solo le regioni associate ai parametri della popolazione, cioè la media o la deviazione standard di una popolazione. E se invece della media o della deviazione standard fossimo interessati alle osservazioni individuali di una popolazione? Per questo possiamo fare uso dell’intervallo di predizione.

Gli intervalli di predizione rappresentano l’incertezza della previsione del valore di una singola osservazione futura o di un numero fisso di osservazioni future multiple da una popolazione sulla base della distribuzione o dispersione di una serie di osservazioni precedenti. Simile all’intervallo di confidenza, gli intervalli di previsione calcolati da un singolo campione non dovrebbero essere interpretati per significare che una percentuale specificata di osservazioni future sarà sempre contenuta nell’intervallo; piuttosto un intervallo di previsione dovrebbe essere interpretato per significare che quando calcolato per un numero di campioni successivi dalla stessa popolazione, un intervallo di previsione conterrà un’osservazione futura una percentuale specificata del tempo.

Per esempio: se raccogliamo un campione di osservazioni e calcoliamo un intervallo di predizione del 95% basato su quel campione, c’è una probabilità del 95% che un’osservazione futura sia contenuta nell’intervallo di predizione. Viceversa, c’è anche un 5% di probabilità che l’osservazione successiva non sia contenuta nell’intervallo. Se raccogliamo 20 campioni e calcoliamo un intervallo di predizione per ognuno di essi, possiamo aspettarci che 19 degli intervalli calcolati conterranno una singola osservazione futura, mentre 1 degli intervalli calcolati non conterrà una singola osservazione futura. Questa interpretazione dell’intervallo di predizione è rappresentata graficamente nella Figura 1.

Figura 1. Grafico dei limiti superiore e inferiore dell’intervallo di predizione per 20 campioni, ciascuno composto da 10 misure di pH tratte dalla stessa popolazione. Il grafico include anche 20 osservazioni future individuali. Si noti che 1 delle 20 singole letture di pH future (cerchiate in rosso) è al di fuori della regione dell’intervallo di predizione associato. Questo è in linea con il 5% degli intervalli che non dovrebbero contenere una singola osservazione futura per un livello di confidenza del 95%.

Gli intervalli di previsione sono più comunemente usati nelle statistiche di regressione, ma possono anche essere usati con dati normalmente distribuiti. Il calcolo di un intervallo di predizione per dati normalmente distribuiti è molto più semplice di quello richiesto per i dati in regressione, quindi inizieremo da lì.

Intervallo di predizione per dati normali

La formula per un intervallo di predizione è quasi identica a quella usata per calcolare un intervallo di confidenza. Ricorda che la formula per un intervallo di confidenza a due lati è

dove

è la media del campione, s è la deviazione standard del campione, n è la dimensione del campione, 1-a è il livello di confidenza desiderato, eè il 100(1-a/2) percentile della distribuzione t dello studente con n-1 gradi di libertà.

Tutto ciò che è necessario per una formula per calcolare un intervallo di predizione è aggiungere un termine extra per tenere conto della variabilità di una singola osservazione sulla media. Questa variabilità viene considerata aggiungendo 1 al termine 1/n sotto il simbolo della radice quadrata in Eq 2. Così facendo si ottiene la formula dell’intervallo di predizione per dati normalmente distribuiti:

Come esempio, diamo ancora un’occhiata all’esempio del pH dalla Parte I di questa serie. Dall’esempio del pH abbiamo i seguenti dati:

L’analista vuole sapere, sulla base dei campioni raccolti finora, l’intervallo a due lati entro il quale è probabile che una singola osservazione futura del pH si trovi con un certo livello di fiducia. Il pH medio,

, in questo esempio è 6,52; la deviazione standard del campione, s, è 0,11. Il livello di confidenza scelto è 95% (a=0.05)

Figura 2: Grafico di probabilità normale per dati di pH.

A differenza degli intervalli di confidenza che sono interessati solo al centro della distribuzione della popolazione, gli intervalli di previsione prendono in considerazione le code della distribuzione così come il centro. Di conseguenza, gli intervalli di predizione hanno una maggiore sensibilità all’assunzione di normalità rispetto agli intervalli di confidenza e quindi l’assunzione di normalità dovrebbe essere testata prima di calcolare un intervallo di predizione. L’assunzione di normalità può essere testata graficamente e quantitativamente usando un software statistico appropriato come Minitab. Per questo esempio l’analista inserisce i dati in Minitab e viene generato un grafico di probabilità normale. Il grafico di probabilità normale è mostrato nella Figura 2.
Guardando il grafico di probabilità possiamo vedere che tutti i dati rientrano nelle bande di intervallo di confidenza del 95% (1- a). Inoltre, il valore P è molto maggiore del livello di significatività di a = 0,05; quindi non rifiuteremmo l’ipotesi che i dati sono distribuiti normalmente e possiamo procedere con il calcolo dell’intervallo di previsione.

Per calcolare l’intervallo l’analista trova prima il valore

in una tabella pubblicata di valori critici per la distribuzione t di studente al livello di confidenza scelto. In questo esempio,

Poi, i valori per

, s, e n sono inseriti nell’equazione 3 per produrre il seguente intervallo di previsione:

L’intervallo in questo caso è 6,52 ± 0,26 o, 6,26 – 6,78. L’interpretazione dell’intervallo è che se i campioni successivi sono stati estratti e testati dalla stessa popolazione, cioè lo stesso lotto o lo stesso numero di lotto, ci si aspetta che il 95% degli intervalli calcolati per i singoli set di campioni contenga una singola lettura futura del pH.

Se, invece di una singola osservazione futura, l’analista volesse calcolare un intervallo di previsione su due lati per includere un numero multiplo di osservazioni future, l’analista dovrebbe semplicemente modificare la t nell’Eqn. 3. Mentre esistono metodi esatti per ricavare il valore di t per osservazioni future multiple, in pratica è più semplice regolare il livello di t dividendo il livello di significatività, a, per il numero di osservazioni future multiple da includere nell’intervallo di previsione. Questo viene fatto per mantenere il livello di significatività desiderato sull’intera famiglia di osservazioni future. Così, invece di trovare il valore per

, troveremmo il valore perdove k è il numero di osservazioni future da includere nell’intervallo di previsione.

Ci sono anche situazioni in cui solo un limite inferiore o superiore è di interesse. Prendiamo, per esempio, un criterio di accettazione che richiede solo che una proprietà fisica di un materiale soddisfi o superi un valore minimo senza un limite superiore al valore della proprietà fisica. In questi casi l’analista vorrebbe calcolare un intervallo unilaterale. Per calcolare un intervallo unilaterale, l’analista dovrebbe semplicemente rimuovere il 2 dal divisore; così

diventerebbeediventerebbe.

Intervallo di previsione per la regressione

Passiamo ora all’applicazione degli intervalli di previsione nelle statistiche di regressione lineare. Nella statistica di regressione lineare, un intervallo di predizione definisce un intervallo di valori entro cui è probabile che una risposta cada dato un valore specificato di un predittore. I dati della regressione lineare sono per definizione distribuiti in modo non normale. I dati distribuiti normalmente sono statisticamente indipendenti l’uno dall’altro, mentre i dati regressivi dipendono dal valore del predittore; cioè, il valore di Y dipende dal valore di X. A causa di questa dipendenza, gli intervalli di predizione applicati alle statistiche di regressione lineare sono molto più complessi da calcolare rispetto agli intervalli di predizione per i dati distribuiti normalmente.

L’incertezza rappresentata da un intervallo di predizione include non solo le incertezze (variazione) associate alla media della popolazione e alla nuova osservazione, ma anche l’incertezza associata ai parametri della regressione. Poiché le incertezze associate alla media della popolazione e alla nuova osservazione sono indipendenti dalle osservazioni utilizzate per adattare il modello, le stime di incertezza devono essere combinate usando la radice della somma dei quadrati per ottenere l’incertezza totale,

. Denotando la variazione apportata dai parametri di regressione come, la variazione apportata dalla stima della media della popolazione come, e la variazione apportata dalla nuova misurazione come s, la variazione totale,, è definita come:

dove

è espresso in termini di predittori utilizzando la seguente relazione:

Aggiungendo l’Eqn. 5 agli altri due termini sotto la radice quadrata nell’Eqn. 3, si ottiene la formula dell’intervallo di previsione su due lati per la variabile di risposta regredita

. Il ‘cappello’ sopra la y indica che la variabile è una stima dovuta all’incertezza dei parametri di regressione e il pedice 0 è un numero indice che indica che y è la prima variabile di risposta stimata.

La valutazione dell’equazione 6 si ottiene meglio utilizzando l’analisi della varianza (ANOVA). Di seguito è riportata la sequenza di passi che può essere seguita per calcolare un intervallo di predizione per una variabile di risposta regredita dato un valore specificato di un predittore.

1. Preparare una tabella di dati grezzi e calcolare le medie

2. Preparare una tabella di somme

3. Calcolare la pendenza e l’intercetta dei dati regressi

Le equazioni nel passo 3 rappresentano i parametri di regressione; cioè, la pendenza e l’intercetta che definiscono la linea migliore per i dati. L’intervallo di previsione per la variabile di risposta stimata,

, deve essere valutato ad una x specificata usando la relazione. L’intervallo di predizione quindi racchiude la risposta stimata al valore specificato di x.

Calcolare la somma dei quadrati e dei termini di errore

4. Calcolare l’intervallo di predizione per contenere un singolo

dato x

Per esempio, supponiamo che un analista abbia raccolto dati grezzi per un processo e che si sospetti una relazione lineare tra una variabile predittiva indicata con x e una variabile risposta indicata con

. L’analista vuole conoscere con il 95% di confidenza la regione in cui un valore perè probabile che cada dato un valore arbitrario di x. I dati grezzi sono presentati qui sotto.

Seguendo la procedura ANOVA descritta sopra, l’analista calcola prima la media sia della variabile predittiva, x, sia della variabile di risposta,

.

Poi, l’analista prepara una tabella delle somme.

Dopo aver completato la tabella delle somme, l’analista procede a calcolare la pendenza

, l’intercetta, la somma totale dei quadrati (SSTotal), la somma dei quadrati dei residui (SSResiduals), la somma dei quadrati degli errori (SSError) e l’errore (Se) per i dati.

Poi, l’analista calcola il valore della variabile risposta,

, al valore desiderato della variabile predittiva, x. In questo caso il valore predittivo desiderato è 5.

Ora, prima di calcolare l’intervallo di predizione, sarebbe saggio per l’analista tracciare i dati grezzi insieme alla risposta prevista definita da

su uno scatter plot per verificare la relazione lineare. Se i dati sono effettivamente lineari, i dati dovrebbero seguire da vicino la linea di tendenza con circa metà dei punti sopra e metà dei punti sotto (vedi Figura 3). I dati che non seguono strettamente la linea di tendenza indicano che la relazione lineare è debole o che la relazione non è lineare e che è necessario qualche altro modello per ottenere un adattamento adeguato. In questo caso il calcolo di un intervallo di previsione non dovrebbe essere tentato fino a quando non si trova un modello più adeguato. Inoltre, se la relazione è fortemente lineare, un grafico di probabilità normale dei residui dovrebbe produrre un valore P molto maggiore del livello di significatività scelto (un livello di significatività di 0,05 è tipico). I residui possono essere facilmente calcolati sottraendo i valori effettivi della risposta dai valori previsti e preparando una normale probabilità dei valori residui (vedere la figura 4).

Figura 3: Grafico di dispersione che mostra la linea di tendenza lineare registrata per la risposta stimata.
Figura 4: Grafico di probabilità normale dei residui. I singoli valori residui sono ben all’interno delle bande dell’intervallo di confidenza 1-a e il valore P è molto maggiore del livello di significatività di a=0,05; quindi, non rifiuteremmo l’ipotesi che i residui siano normalmente distribuiti e possiamo procedere con il calcolo dell’intervallo di predizione.

Dopo aver stabilito la relazione lineare tra le variabili predittore e risposta e verificato l’ipotesi che i residui siano normalmente distribuiti, l’analista è pronto per calcolare l’intervallo di predizione. L’analista inizia trovando prima il valore della distribuzione t di Student che equivale a un livello di confidenza del 95% (cioè, a=0,05). Poiché l’analista è interessato a un intervallo a due lati, a deve essere diviso per 2. Il valore corretto per t in questo caso, dato che a/2=0,025 e n-2 = 8 è 2,306.

Con il valore corretto per

in mano, l’analista calcola l’intervallo usando l’equazione 6 e il valore del predittore di 5.

La figura 5 mostra il grafico di dispersione della figura 3 con l’aggiunta dei limiti superiore e inferiore dell’intervallo di previsione calcolato.

Figura 5: Grafico di dispersione con i limiti dell’intervallo di previsione per la risposta stimata, . Il valore predittivo in questo caso è 5.

Quindi, l’intervallo previsto per contenere il valore previsto per y a x=5 con il 95% di confidenza è 19,15 – 32,07. Questa procedura deve essere ripetuta per altri valori di x perché la variazione associata ai parametri stimati potrebbe non essere costante in tutto l’intervallo del predittore. Per esempio, gli intervalli di predizione calcolati possono essere più piccoli a valori più bassi per x e più grandi per valori più alti di x.

Questo metodo per calcolare un intervallo di predizione per dati con regressione lineare non funziona per relazioni non lineari. Questi casi richiedono la trasformazione dei dati per emulare una relazione lineare o l’applicazione di altre distribuzioni statistiche per modellare i dati. Questi metodi sono disponibili nella maggior parte dei pacchetti software statistici, ma la spiegazione di questi metodi va oltre lo scopo di questo articolo.

Conclusione

Gli intervalli di previsione forniscono un mezzo per quantificare l’incertezza di una singola osservazione futura da una popolazione, a condizione che la distribuzione sottostante sia normale. Gli intervalli di previsione possono essere creati per dati normalmente distribuiti, ma sono più adatti per quantificare l’incertezza associata a una risposta prevista nelle statistiche di regressione lineare. Poiché gli intervalli di predizione riguardano le singole osservazioni in una popolazione così come le stime dei parametri, gli intervalli di predizione saranno necessariamente più ampi di un intervallo di confidenza calcolato per lo stesso set di dati. Per lo stesso motivo, gli intervalli di previsione sono anche più suscettibili all’assunzione di normalità rispetto agli intervalli di confidenza.

Nella Parte III di questa serie esamineremo un intervallo per coprire una determinata proporzione della popolazione con una data confidenza. Questo tipo di intervallo è chiamato intervallo di tolleranza ed è particolarmente utile quando l’obiettivo è quello di dimostrare la capacità di un processo di soddisfare i requisiti di prestazione specificati, come i limiti di specifica associati a una caratteristica di qualità critica del prodotto.

Per saperne di più sui servizi di convalida di processo di ProPharma Group.
Contattaci per entrare in contatto con Fred e gli altri nostri esperti in materia per una soluzione personalizzata di convalida di processo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.