Comprendre les intervalles statistiques : Partie 2 – Intervalles de prédiction

La partie 1 de cette série a abordé les intervalles de confiance. Les intervalles de confiance sont les plus connus des intervalles statistiques mais ils ne délimitent que les régions associées aux paramètres de la population ; c’est-à-dire la moyenne ou l’écart-type d’une population. Que se passe-t-il si, au lieu de la moyenne ou de l’écart-type, nous nous intéressons aux observations individuelles d’une population ? Pour cela, nous pouvons faire appel à l’intervalle de prédiction.

Les intervalles de prédiction représentent l’incertitude de la prédiction de la valeur d’une observation future unique ou d’un nombre fixe d’observations futures multiples d’une population sur la base de la distribution ou de la dispersion d’un certain nombre d’observations précédentes. Comme pour l’intervalle de confiance, les intervalles de prédiction calculés à partir d’un seul échantillon ne doivent pas être interprétés comme signifiant qu’un pourcentage spécifié d’observations futures sera toujours contenu dans l’intervalle ; un intervalle de prédiction doit plutôt être interprété comme signifiant que lorsqu’il est calculé pour un certain nombre d’échantillons successifs de la même population, un intervalle de prédiction contiendra une observation future un pourcentage spécifié du temps.

Par exemple : si l’on recueille un échantillon d’observations et que l’on calcule un intervalle de prédiction de 95% sur la base de cet échantillon, il y a une probabilité de 95% qu’une observation future soit contenue dans l’intervalle de prédiction. Inversement, il existe également une probabilité de 5 % que la prochaine observation ne soit pas comprise dans l’intervalle. Si nous recueillons 20 échantillons et calculons un intervalle de prédiction pour chacun d’entre eux, nous pouvons nous attendre à ce que 19 des intervalles calculés contiennent une seule observation future, tandis qu’un des intervalles calculés ne contiendra pas d’observation future. Cette interprétation de l’intervalle de prédiction est représentée graphiquement dans la figure 1.

Figure 1. Tracé des limites supérieure et inférieure de l’intervalle de prédiction pour 20 échantillons composés chacun de 10 mesures de pH tirées de la même population. Le tracé comprend également 20 observations individuelles futures. Remarquez qu’une des 20 mesures de pH futures individuelles (encerclées en rouge) est en dehors de la région de l’intervalle de prédiction associé. Ceci est en alignement avec les 5% d’intervalles qui ne devraient pas contenir une seule observation future pour un niveau de confiance de 95%.

Les intervalles de prédiction sont le plus souvent utilisés dans les statistiques de régression, mais peuvent également être utilisés avec des données normalement distribuées. Le calcul d’un intervalle de prédiction pour des données normalement distribuées est beaucoup plus simple que celui requis pour des données régressées, nous allons donc commencer par là.

Intervalle de prédiction pour des données normales

La formule d’un intervalle de prédiction est presque identique à celle utilisée pour calculer un intervalle de confiance. Rappelez-vous que la formule pour un intervalle de confiance bilatéral est

est la moyenne de l’échantillon, s est l’écart-type de l’échantillon, n est la taille de l’échantillon, 1-a est le niveau de confiance souhaité, etest le centile 100(1-a/2) de la distribution t de student avec n-1 degrés de liberté.

Tout ce qu’il faut à une formule pour calculer un intervalle de prédiction est d’ajouter un terme supplémentaire pour tenir compte de la variabilité d’une seule observation par rapport à la moyenne. Cette variabilité est prise en compte en ajoutant 1 au terme 1/n sous le symbole de la racine carrée dans l’équation 2. Ce faisant, on obtient la formule d’intervalle de prédiction pour des données normalement distribuées :

À titre d’exemple, reprenons l’exemple du pH de la première partie de cette série. A partir de l’exemple du pH, nous avons les données suivantes:

L’analyste veut connaître, sur la base des échantillons collectés jusqu’à présent, l’intervalle bilatéral dans lequel une seule observation future du pH est susceptible de se situer avec un certain niveau de confiance. Le pH moyen,

, dans cet exemple est de 6,52 ; l’écart type de l’échantillon, s, est de 0,11. Le niveau de confiance choisi est de 95% (a=0,05)

Figure 2 : Tracé de probabilité normale pour des données de pH.

Contrairement aux intervalles de confiance qui ne s’intéressent qu’au centre de la distribution de la population, les intervalles de prédiction prennent en compte les queues de la distribution ainsi que le centre. Par conséquent, les intervalles de prédiction sont plus sensibles à l’hypothèse de normalité que les intervalles de confiance et donc l’hypothèse de normalité doit être testée avant de calculer un intervalle de prédiction. L’hypothèse de normalité peut être testée graphiquement et quantitativement à l’aide d’un logiciel statistique approprié tel que Minitab. Dans cet exemple, l’analyste saisit les données dans Minitab et un graphique de probabilité normale est généré. Le tracé de probabilité normale est illustré à la figure 2.
En regardant le tracé de probabilité, nous pouvons voir que toutes les données se situent dans les bandes de l’intervalle de confiance de 95% (1- a). En outre, la valeur P est bien supérieure au niveau de signification de a = 0,05 ; par conséquent, nous ne rejetterions pas l’hypothèse selon laquelle les données sont normalement distribuées et nous pouvons procéder au calcul de l’intervalle de prédiction.

Pour calculer l’intervalle, l’analyste trouve d’abord la valeur

dans un tableau publié des valeurs critiques pour la distribution t de student au niveau de confiance choisi. Dans cet exemple,

Puis, les valeurs de

, s, et n sont entrées dans l’équation 3 pour donner l’intervalle de prédiction suivant :

L’intervalle dans ce cas est de 6,52 ± 0,26 ou, 6,26 – 6,78. L’interprétation de cet intervalle est que si des échantillons successifs ont été prélevés et testés à partir de la même population ; c’est-à-dire, le même lot ou le même numéro de lot, 95 % des intervalles calculés pour les ensembles d’échantillons individuels devraient contenir une seule lecture de pH future.

Si, au lieu d’une seule observation future, l’analyste voulait calculer un intervalle de prédiction bilatéral pour inclure un nombre multiple d’observations futures, il modifierait simplement le t de l’équation 3. Bien que des méthodes exactes existent pour dériver la valeur de t pour des observations futures multiples, dans la pratique, il est plus simple d’ajuster le niveau de t en divisant le niveau de signification, a, par le nombre d’observations futures multiples à inclure dans l’intervalle de prédiction. Ceci est fait pour maintenir le niveau de signification souhaité sur toute la famille d’observations futures. Ainsi, au lieu de trouver la valeur de

, nous trouverions la valeur deoù k est le nombre d’observations futures à inclure dans l’intervalle de prédiction.

Il existe également des situations où seule une limite inférieure ou supérieure présente un intérêt. Prenons, par exemple, un critère d’acceptation qui exige seulement qu’une propriété physique d’un matériau atteigne ou dépasse une valeur minimale, sans limite supérieure à la valeur de la propriété physique. Dans ce cas, l’analyste voudra calculer un intervalle unilatéral. Pour calculer un intervalle unilatéral, l’analyste enlèverait simplement le 2 du diviseur ; ainsi

deviendraitetdeviendrait.

Intervalle de prédiction pour la régression

Nous passons maintenant à l’application des intervalles de prédiction dans les statistiques de régression linéaire. Dans les statistiques de régression linéaire, un intervalle de prédiction définit une plage de valeurs dans laquelle une réponse est susceptible de se situer compte tenu d’une valeur spécifiée d’un prédicteur. Les données de régression linéaire sont par définition non distribuées normalement. Les données normalement distribuées sont statistiquement indépendantes les unes des autres alors que les données régressées dépendent d’une valeur de prédicteur, c’est-à-dire que la valeur de Y dépend de la valeur de X. En raison de cette dépendance, les intervalles de prédiction appliqués aux statistiques de régression linéaire sont considérablement plus impliqués à calculer que les intervalles de prédiction pour les données normalement distribuées.

L’incertitude représentée par un intervalle de prédiction comprend non seulement les incertitudes (variation) associées à la moyenne de la population et à la nouvelle observation, mais aussi l’incertitude associée aux paramètres de régression. Comme les incertitudes associées à la moyenne de la population et à la nouvelle observation sont indépendantes des observations utilisées pour ajuster le modèle, les estimations d’incertitude doivent être combinées en utilisant la somme des racines des carrés pour obtenir l’incertitude totale,

. En désignant la variation apportée par les paramètres de régression par, la variation apportée par l’estimation de la moyenne de la population par, et la variation apportée par la nouvelle mesure par s , la variation totale,, est définie comme :

est exprimée en termes de prédicteurs en utilisant la relation suivante :

En ajoutant l’équation 5 aux deux autres termes sous la racine carrée de l’équation 3, on obtient la formule d’intervalle de prédiction bilatérale pour la variable réponse régressée

. Le « chapeau » sur le y indique que la variable est une estimation due à l’incertitude des paramètres de régression et l’indice 0 est un numéro d’index indiquant que y est la première variable de réponse estimée.

L’évaluation de l’équation 6 est mieux réalisée en utilisant l’analyse de la variance (ANOVA). Voici la séquence des étapes qui peuvent être suivies pour calculer un intervalle de prédiction pour une variable de réponse régressée étant donné une valeur spécifiée d’un prédicteur.

1. Préparer un tableau de données brutes et calculer les moyennes

2. Préparer un tableau de sommes

3. Calculer la pente et l’ordonnée à l’origine des données régressées

Les équations de l’étape 3 représentent les paramètres de régression, c’est-à-dire la pente et l’ordonnée à l’origine définissant la ligne de meilleur ajustement pour les données. L’intervalle de prédiction pour la variable de réponse estimée,

, doit être évalué à un x spécifié en utilisant la relation. L’intervalle de prédiction met alors entre parenthèses la réponse estimée à la valeur spécifiée de x.

Calculer la somme des carrés et les termes d’erreur

4. Calculer l’intervalle de prédiction pour contenir un seul

donné x

Par exemple, supposons qu’un analyste ait recueilli des données brutes pour un processus et que l’on soupçonne l’existence d’une relation linéaire entre une variable prédicteur désignée par x et une variable réponse désignée par

. L’analyste veut connaître avec un niveau de confiance de 95 % la région dans laquelle une valeur de

est susceptible de tomber étant donné une valeur arbitraire de x. Les données brutes sont présentées ci-dessous.

Suivant la procédure d’ANOVA décrite ci-dessus, l’analyste calcule d’abord la moyenne de la variable prédicteur, x, et de la variable réponse,

.

Puis, l’analyste prépare un tableau de sommes.

Après avoir complété le tableau de sommes, l’analyste procède au calcul de la pente

, de l’ordonnée à l’origine, de la somme totale des carrés (SSTotal), de la somme des carrés des résidus (SSResiduals), de la somme des carrés de l’erreur (SSError) et de l’erreur (Se) pour les données.

Puis, l’analyste calcule la valeur de la variable réponse,

, à la valeur souhaitée de la variable prédicteur, x. Dans ce cas, la valeur prédicteur souhaitée est 5.

Maintenant, avant de calculer l’intervalle de prédiction, il serait sage pour l’analyste de tracer les données brutes ainsi que la réponse prédite définie par

sur un diagramme de dispersion pour vérifier la relation linéaire. Si les données sont en fait linéaires, elles devraient suivre de près la ligne de tendance avec environ la moitié des points au-dessus et la moitié des points au-dessous (voir la figure 3). Les données qui ne suivent pas de près la ligne de tendance indiquent que la relation linéaire est faible ou que la relation est non linéaire et qu’un autre modèle est nécessaire pour obtenir un ajustement adéquat. Dans ce cas, le calcul d’un intervalle de prédiction ne doit pas être tenté jusqu’à ce qu’un modèle plus adéquat soit trouvé. De même, si la relation est fortement linéaire, un graphique de probabilité normale des résidus devrait donner une valeur P bien supérieure au niveau de signification choisi (un niveau de signification de 0,05 est typique). Les résidus peuvent être facilement calculés en soustrayant les valeurs réelles de la réponse des valeurs prédites et en préparant une probabilité normale des valeurs résiduelles (voir la figure 4).

Figure 3 : Scatter plot montrant la ligne de tendance à régression linéaire pour la réponse estimée.
Figure 4 : Graphique de probabilité normale des résidus. Les valeurs résiduelles individuelles sont bien à l’intérieur des bandes de l’intervalle de confiance 1-a et la valeur P est bien supérieure au niveau de signification de a=0,05 ; par conséquent, nous ne rejetterions pas l’hypothèse selon laquelle les résidus sont normalement distribués et nous pouvons procéder au calcul de l’intervalle de prédiction.

Après avoir établi la relation linéaire entre les variables prédicteur et réponse et vérifié l’hypothèse selon laquelle les résidus sont normalement distribués, l’analyste est prêt à calculer l’intervalle de prédiction. L’analyste commence par trouver la valeur de la distribution t de student correspondant à un niveau de confiance de 95 % (c’est-à-dire a=0,05). Puisque l’analyste s’intéresse à un intervalle bilatéral, a doit être divisé par 2. La valeur correcte de t dans ce cas, étant donné que a/2=0,025 et n-2 = 8, est 2,306.

Avec la valeur correcte de

en main, l’analyste calcule l’intervalle en utilisant l’équation 6 et la valeur du prédicteur de 5.

La figure 5 montre le diagramme de dispersion de la figure 3 avec les limites supérieure et inférieure de l’intervalle de prédiction calculé ajoutées.

Figure 5 : Diagramme de dispersion avec les limites de l’intervalle de prédiction pour la réponse estimée, . La valeur du prédicteur dans ce cas est 5.

Donc, l’intervalle censé contenir la valeur prédite pour y à x=5 avec un niveau de confiance de 95 % est 19,15 – 32,07. Cette procédure doit être répétée pour d’autres valeurs de x car la variation associée aux paramètres estimés peut ne pas être constante sur toute la plage de prédiction. Par exemple, les intervalles de prédiction calculés peuvent être plus petits pour les valeurs inférieures de x et plus grands pour les valeurs supérieures de x.

Cette méthode de calcul d’un intervalle de prédiction pour les données à régression linéaire ne fonctionne pas pour les relations non linéaires. Ces cas nécessitent une transformation des données pour émuler une relation linéaire ou l’application d’autres distributions statistiques pour modéliser les données. Ces méthodes sont disponibles dans la plupart des progiciels statistiques, mais leur explication dépasse le cadre de cet article.

Conclusion

Les intervalles de prédiction fournissent un moyen de quantifier l’incertitude d’une observation future unique d’une population, à condition que la distribution sous-jacente soit normale. Les intervalles de prédiction peuvent être créés pour des données normalement distribuées, mais sont mieux adaptés pour quantifier l’incertitude associée à une réponse prédite dans les statistiques de régression linéaire. Parce que les intervalles de prédiction concernent les observations individuelles dans une population ainsi que les estimations des paramètres, les intervalles de prédiction seront nécessairement plus larges qu’un intervalle de confiance calculé pour le même ensemble de données. Pour la même raison, les intervalles de prédiction sont également plus sensibles à l’hypothèse de normalité que les intervalles de confiance.

Dans la partie-III de cette série, nous examinerons un intervalle permettant de couvrir une proportion spécifiée de la population avec une confiance donnée. Ce type d’intervalle est appelé intervalle de tolérance et est particulièrement utile lorsque l’objectif est de démontrer la capacité d’un processus à répondre à des exigences de performance spécifiées, telles que les limites de spécification associées à une caractéristique de qualité critique du produit.

En savoir plus sur les services de validation de processus du groupe ProPharma.
Contactez-nous pour entrer en contact avec Fred et nos autres experts en la matière pour une solution personnalisée de validation de processus.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.