Entendiendo los intervalos estadísticos: Parte 2 – Intervalos de predicción

La primera parte de esta serie trató sobre los intervalos de confianza. Los intervalos de confianza son los más conocidos de los intervalos estadísticos, pero sólo delimitan regiones asociadas a parámetros poblacionales; es decir, la media o la desviación estándar de una población. ¿Y si en lugar de la media o la desviación típica nos interesan las observaciones individuales de una población? Para ello podemos hacer uso del intervalo de predicción.

Los intervalos de predicción representan la incertidumbre de predecir el valor de una única observación futura o de un número fijo de múltiples observaciones futuras de una población a partir de la distribución o dispersión de una serie de observaciones anteriores. De forma similar al intervalo de confianza, los intervalos de predicción calculados a partir de una sola muestra no deben interpretarse en el sentido de que un porcentaje específico de observaciones futuras siempre estará contenido en el intervalo; más bien, un intervalo de predicción debe interpretarse en el sentido de que, cuando se calcula para un número de muestras sucesivas de la misma población, un intervalo de predicción contendrá una observación futura un porcentaje específico de las veces.

Por ejemplo: si recogemos una muestra de observaciones y calculamos un intervalo de predicción del 95% basado en esa muestra, existe una probabilidad del 95% de que una observación futura esté contenida en el intervalo de predicción. A la inversa, también hay un 5% de probabilidad de que la siguiente observación no esté contenida en el intervalo. Si recogemos 20 muestras y calculamos un intervalo de predicción para cada una de ellas, podemos esperar que 19 de los intervalos calculados contengan una única observación futura, mientras que 1 de los intervalos calculados no contenga ninguna observación futura. Esta interpretación del intervalo de predicción se representa gráficamente en la figura 1.

Figura 1. Gráfico de los límites superior e inferior del intervalo de predicción para 20 muestras, cada una de las cuales consta de 10 mediciones de pH extraídas de la misma población. El gráfico también incluye 20 observaciones individuales futuras. Obsérvese que 1 de las 20 lecturas futuras individuales de pH (marcadas con un círculo rojo) está fuera de la región del intervalo de predicción asociado. Esto está en consonancia con el 5% de los intervalos que no se espera que contengan una única observación futura para un nivel de confianza del 95%.

Los intervalos de predicción se utilizan más comúnmente en las estadísticas de regresión, pero también pueden utilizarse con datos distribuidos normalmente. El cálculo de un intervalo de predicción para datos con distribución normal es mucho más sencillo que el requerido para datos con regresión, así que empezaremos por ahí.

Intervalo de predicción para datos normales

La fórmula para un intervalo de predicción es casi idéntica a la fórmula utilizada para calcular un intervalo de confianza. Recuerde que la fórmula para un intervalo de confianza de dos lados es

donde

es la media de la muestra, s es la desviación estándar de la muestra, n es el tamaño de la muestra, 1-a es el nivel de confianza deseado, yes el percentil 100(1-a/2) de la distribución t del estudiante con n-1 grados de libertad.

Todo lo que se necesita para que una fórmula calcule un intervalo de predicción es añadir un término extra para tener en cuenta la variabilidad de una sola observación sobre la media. Esta variabilidad se tiene en cuenta añadiendo 1 al término 1/n bajo el símbolo de la raíz cuadrada en la Ecuación 2. Haciendo esto se obtiene la fórmula del intervalo de predicción para datos distribuidos normalmente:

Como ejemplo, volvamos a ver el ejemplo del pH de la Parte I de esta serie. Del ejemplo del pH tenemos los siguientes datos:

El analista quiere saber, basándose en las muestras recogidas hasta el momento, el intervalo de dos lados dentro del cual es probable que se encuentre una única observación futura del pH con cierto nivel de confianza. El pH medio,

, en este ejemplo es de 6,52; la desviación estándar de la muestra, s, es de 0,11. El nivel de confianza elegido es del 95% (a=0,05)

Figura 2: Gráfico de probabilidad normal para datos de pH.

A diferencia de los intervalos de confianza que sólo se ocupan del centro de la distribución de la población, los intervalos de predicción tienen en cuenta las colas de la distribución, así como el centro. Como resultado, los intervalos de predicción son más sensibles al supuesto de normalidad que los intervalos de confianza y, por tanto, el supuesto de normalidad debe comprobarse antes de calcular un intervalo de predicción. El supuesto de normalidad puede comprobarse gráfica y cuantitativamente utilizando un software estadístico adecuado, como Minitab. En este ejemplo, el analista introduce los datos en Minitab y se genera un gráfico de probabilidad normal. El gráfico de probabilidad normal se muestra en la Figura 2.
Al observar el gráfico de probabilidad podemos ver que todos los datos caen dentro de las bandas del 95% (1- a) del intervalo de confianza. Además, el valor P es mucho mayor que el nivel de significación de a = 0,05; por lo tanto, no rechazaríamos la suposición de que los datos se distribuyen normalmente y podemos proceder a calcular el intervalo de predicción.

Para calcular el intervalo, el analista encuentra primero el valor

en una tabla publicada de valores críticos para la distribución t del estudiante en el nivel de confianza elegido. En este ejemplo,

A continuación, los valores de

, s y n se introducen en la Ecuación 3 para obtener el siguiente intervalo de predicción:

El intervalo en este caso es 6,52 ± 0,26 o, 6,26 – 6,78. La interpretación del intervalo es que si se extraen y analizan muestras sucesivas de la misma población; es decir el mismo lote o el mismo número de lote, se espera que el 95% de los intervalos calculados para los conjuntos de muestras individuales contengan una única lectura futura de pH.

Si, en lugar de una única observación futura, el analista quisiera calcular un intervalo de predicción de dos lados para incluir un número múltiple de observaciones futuras, el analista simplemente modificaría la t en la Ecn. 3. Aunque existen métodos exactos para derivar el valor de t para múltiples observaciones futuras, en la práctica es más sencillo ajustar el nivel de t dividiendo el nivel de significación, a, por el número de observaciones futuras múltiples que se incluirán en el intervalo de predicción. Esto se hace para mantener el nivel de significación deseado en toda la familia de observaciones futuras. Así, en lugar de encontrar el valor para

, encontraríamos el valor paradonde k es el número de observaciones futuras que se incluirán en el intervalo de predicción.

También hay situaciones en las que sólo interesa un límite inferior o superior. Tomemos, por ejemplo, un criterio de aceptación que sólo requiere que una propiedad física de un material cumpla o supere un valor mínimo sin límite superior para el valor de la propiedad física. En estos casos, el analista querrá calcular un intervalo unilateral. Para calcular un intervalo unilateral el analista simplemente eliminaría el 2 del divisor; así

se convertiría enyse convertiría en.

Intervalo de predicción para la regresión

Vamos ahora a la aplicación de los intervalos de predicción en la estadística de regresión lineal. En la estadística de regresión lineal, un intervalo de predicción define un rango de valores dentro del cual es probable que caiga una respuesta dado un valor específico de un predictor. Los datos de la regresión lineal están, por definición, distribuidos de forma no normal. Los datos con distribución normal son estadísticamente independientes entre sí, mientras que los datos con regresión dependen del valor de un predictor; es decir, el valor de Y depende del valor de X. Debido a esta dependencia, los intervalos de predicción aplicados a las estadísticas de regresión lineal son considerablemente más complicados de calcular que los intervalos de predicción para datos con distribución normal.

La incertidumbre representada por un intervalo de predicción incluye no sólo las incertidumbres (variación) asociadas a la media de la población y a la nueva observación, sino también la incertidumbre asociada a los parámetros de regresión. Dado que las incertidumbres asociadas a la media de la población y a la nueva observación son independientes de las observaciones utilizadas para ajustar el modelo, las estimaciones de la incertidumbre deben combinarse utilizando la raíz de la suma de los cuadrados para obtener la incertidumbre total,

. Denotando la variación contribuida por los parámetros de regresión como, la variación contribuida por la estimación de la media de la población como, y la variación contribuida por la nueva medición como s , la variación total,, se define como:

Donde

se expresa en términos de los predictores utilizando la siguiente relación:

Sumando la Ecuación 5 a los otros dos términos bajo la raíz cuadrada en la Ecuación 3, se obtiene la fórmula del intervalo de predicción de dos lados para la variable de respuesta regresada

. El «sombrero» sobre la y indica que la variable es una estimación debido a la incertidumbre de los parámetros de regresión y el subíndice 0 es un número de índice que indica que y es la primera variable de respuesta estimada.

La evaluación de la Ecuación 6 se logra mejor utilizando el Análisis de Varianza (ANOVA). A continuación se muestra la secuencia de pasos que pueden seguirse para calcular un intervalo de predicción para una variable de respuesta regresiva dado un valor específico de un predictor.

1. Prepare una tabla de datos brutos y calcule las medias

2. Prepare una tabla de sumas

3. Calcule la pendiente y el intercepto de los datos regresados

Las ecuaciones del paso 3 representan los parámetros de regresión; es decir, la pendiente y el intercepto que definen la línea de mejor ajuste para los datos. El intervalo de predicción para la variable de respuesta estimada,

, debe evaluarse en una x especificada utilizando la relación. El intervalo de predicción pone entre paréntesis la respuesta estimada en el valor especificado de x.

Calcule la suma de los cuadrados y los términos de error

4. Calcule el intervalo de predicción para contener un único

dado x

Por ejemplo, suponga que un analista ha recogido datos brutos para un proceso y se sospecha que existe una relación lineal entre una variable de predicción denotada por x y una variable de respuesta denotada por

. El analista quiere saber con un 95% de confianza la región en la que es probable que caiga un valor de

dado un valor arbitrario de x. Los datos brutos se presentan a continuación.

Siguiendo el procedimiento del ANOVA descrito anteriormente, el analista calcula primero la media tanto de la variable predictora, x, como de la variable de respuesta,

.

A continuación, el analista prepara una tabla de sumas.

Después de completar la tabla de sumas, el analista procede a calcular la Pendiente

, la Intercepción, la Suma Total de Cuadrados (SSTotal), la Suma de Cuadrados de los Residuales (SSResiduales), la Suma de Cuadrados del Error (SSError) y el Error (Se) para los datos.

A continuación, el analista calcula el valor de la variable de respuesta,

, en el valor deseado de la variable de predicción, x. En este caso, el valor de predicción deseado es 5.

Ahora, antes de calcular el intervalo de predicción, sería conveniente que el analista trazara los datos brutos junto con la respuesta predicha definida por

en un gráfico de dispersión para verificar la relación lineal. Si los datos son realmente lineales, deberían seguir de cerca la línea de tendencia con aproximadamente la mitad de los puntos por encima y la mitad de los puntos por debajo (véase la figura 3). Los datos que no siguen de cerca la línea de tendencia indican que la relación lineal es débil o que la relación no es lineal y que se requiere algún otro modelo para obtener un ajuste adecuado. En este caso, no se debe intentar calcular un intervalo de predicción hasta que se encuentre un modelo más adecuado. Además, si la relación es fuertemente lineal, un gráfico de probabilidad normal de los residuos debería arrojar un valor P mucho mayor que el nivel de significación elegido (un nivel de significación de 0,05 es típico). Los residuos pueden calcularse fácilmente restando los valores reales de la respuesta de los valores predichos y preparando un gráfico de probabilidad normal de los valores residuales (véase la figura 4).

Figura 3: Gráfico de dispersión que muestra la línea de tendencia con regresión lineal para la respuesta estimada.
Figura 4: Gráfico de probabilidad normal de los residuos. Los valores residuales individuales están bien dentro de las bandas del intervalo de confianza de 1-a y el valor P es mucho mayor que el nivel de significación de a=0,05; por lo tanto, no rechazaríamos la suposición de que los residuos se distribuyen normalmente y podemos proceder a calcular el intervalo de predicción.

Después de establecer la relación lineal entre las variables predictoras y de respuesta y de comprobar la suposición de que los residuos se distribuyen normalmente, el analista está listo para calcular el intervalo de predicción. El analista empieza por encontrar primero el valor de la distribución t de student que equivale a un nivel de confianza del 95% (es decir, a=0,05). Como el analista está interesado en un intervalo de dos lados, a debe dividirse por 2. El valor correcto de t en este caso, dado que a/2=0,025 y n-2 = 8, es 2,306.

Con el valor correcto de

en la mano, el analista calcula el intervalo utilizando la Ecuación 6 y el valor del predictor de 5.

La figura 5 muestra el gráfico de dispersión de la figura 3 con los límites superior e inferior del intervalo de predicción calculado.

Figura 5: Gráfico de dispersión con los límites del intervalo de predicción para la respuesta estimada, . El valor del predictor en este caso es 5.

Así, el intervalo que se espera que contenga el valor predicho para y en x=5 con un 95% de confianza es 19,15 – 32,07. Este procedimiento debe repetirse para otros valores de x porque la variación asociada a los parámetros estimados puede no ser constante en todo el intervalo de predicción. Por ejemplo, los intervalos de predicción calculados pueden ser más pequeños en los valores más bajos de x y más grandes en los valores más altos de x.

Este método para calcular un intervalo de predicción para datos con regresión lineal no funciona para relaciones no lineales. Estos casos requieren la transformación de los datos para emular una relación lineal o la aplicación de otras distribuciones estadísticas para modelar los datos. Estos métodos están disponibles en la mayoría de los paquetes de software estadístico, pero la explicación de estos métodos está fuera del alcance de este artículo.

Conclusión

Los intervalos de predicción proporcionan un medio para cuantificar la incertidumbre de una única observación futura de una población siempre que la distribución subyacente sea normal. Los intervalos de predicción pueden crearse para datos con distribución normal, pero son más adecuados para cuantificar la incertidumbre asociada a una respuesta predicha en estadísticas de regresión lineal. Dado que los intervalos de predicción se refieren a las observaciones individuales de una población, así como a las estimaciones de los parámetros, los intervalos de predicción serán necesariamente más amplios que un intervalo de confianza calculado para el mismo conjunto de datos. Por la misma razón, los intervalos de predicción son también más susceptibles al supuesto de normalidad que los intervalos de confianza.

En la Parte-III de esta serie examinaremos un intervalo para cubrir una proporción específica de la población con una confianza dada. Este tipo de intervalo se denomina Intervalo de Tolerancia y es especialmente útil cuando el objetivo es demostrar la capacidad de un proceso para cumplir con los requisitos de rendimiento especificados, como los límites de especificación asociados a una característica de calidad crítica del producto.

Conozca más sobre los servicios de Validación de Procesos de ProPharma Group.
Contacte con nosotros para ponerse en contacto con Fred y nuestros otros expertos en la materia para obtener una solución de Validación de Procesos personalizada.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.