Intervalos Estatísticos Compreensivos: Parte 2 – Intervalos de Previsão

Parte 1 desta série discutiu intervalos de confiança. Os intervalos de confiança são os mais conhecidos dos intervalos estatísticos, mas limitam apenas as regiões associadas aos parâmetros populacionais; ou seja, a média ou o desvio padrão de uma população. E se, em vez da média ou desvio padrão, estivermos interessados em observações individuais de uma população? Para isso podemos fazer uso do intervalo de previsão.

Intervalos de previsão representam a incerteza de prever o valor de uma única observação futura ou um número fixo de múltiplas observações futuras de uma população com base na distribuição ou dispersão de um número de observações anteriores. Similar ao intervalo de confiança, intervalos de previsão calculados a partir de uma única amostra não devem ser interpretados como significando que uma porcentagem especificada de observações futuras estará sempre contida dentro do intervalo; ao contrário, um intervalo de previsão deve ser interpretado como significando que quando calculado para um número de amostras sucessivas da mesma população, um intervalo de previsão conterá uma observação futura uma porcentagem especificada do tempo.

Por exemplo: se recolhermos uma amostra de observações e calcularmos um intervalo de previsão de 95% com base nessa amostra, existe uma probabilidade de 95% de uma observação futura estar contida dentro do intervalo de previsão. Por outro lado, há também uma probabilidade de 5% de que a próxima observação não estará contida dentro do intervalo. Se recolhermos 20 amostras e calcularmos um intervalo de previsão para cada uma delas, podemos esperar que 19 dos intervalos calculados contenham uma única observação futura enquanto 1 dos intervalos calculados não conterá uma única observação futura. Esta interpretação do intervalo de previsão é representada graficamente na Figura 1.

Figure 1. Lote de limites superiores e inferiores do intervalo de previsão para 20 amostras, cada uma consistindo de 10 medições de pH tiradas da mesma população. O gráfico também inclui 20 observações individuais futuras. Note que 1 das 20 leituras individuais futuras de pH (circuladas em vermelho) está fora da região do intervalo de previsão associado. Isto está em alinhamento com os 5% de intervalos que não se espera que contenham uma única observação futura para um nível de confiança de 95%.

Intervalos de previsão são mais comumente usados em estatísticas de regressão, mas também podem ser usados com dados normalmente distribuídos. O cálculo de um intervalo de previsão para dados normalmente distribuídos é muito mais simples do que o necessário para dados regressivos, por isso vamos começar aí.

Intervalo de previsão para dados normais

A fórmula para um intervalo de previsão é quase idêntica à fórmula usada para calcular um intervalo de confiança. Lembre-se que a fórmula para um intervalo de confiança bilateral é

onde

é a média da amostra, s é o desvio padrão da amostra, n é o tamanho da amostra, 1-a é o nível de confiança desejado, eé o percentil 100(1-a/2) da distribuição t do aluno com n-1 graus de liberdade.

tudo o que é necessário para uma fórmula calcular um intervalo de previsão é adicionar um termo extra para contabilizar a variabilidade de uma única observação sobre a média. Esta variabilidade é contabilizada adicionando 1 ao termo 1/n sob o símbolo da raiz quadrada em Eq 2. Fazendo isso, obtém-se a fórmula do intervalo de predição para dados normalmente distribuídos:

Como exemplo, vamos novamente dar uma olhada no exemplo de pH da Parte I desta série. Do exemplo de pH temos os seguintes dados:

O analista quer saber, com base nas amostras coletadas até agora, o intervalo de dois lados dentro do qual é provável que uma única observação futura de pH se encontre com algum nível de confiança. O pH médio,

, neste exemplo é 6,52; o desvio padrão da amostra, s, é 0,11. O nível de confiança escolhido é 95% (a=0,05)

Figure 2: Normal Probability Plot for pH Data,

Intervalos de confiança não semelhantes que se referem apenas ao centro da distribuição da população, intervalos de previsão levam em conta as caudas da distribuição, bem como o centro. Como resultado, os intervalos de predição têm maior sensibilidade à suposição de normalidade do que os intervalos de confiança e, portanto, a suposição de normalidade deve ser testada antes do cálculo de um intervalo de predição. A suposição de normalidade pode ser testada gráfica e quantitativamente usando um software estatístico apropriado, como o Minitab. Para este exemplo, o analista insere os dados no Minitab e um gráfico de probabilidade normal é gerado. O Gráfico de Probabilidade Normal é mostrado na Figura 2.
Locando no gráfico de probabilidade, podemos ver que todos os dados estão dentro das faixas de 95% (1- a) Intervalo de confiança. Além disso, o Valor-P é muito maior que o nível de significância de a = 0,05; portanto não rejeitaríamos a suposição de que os dados são normalmente distribuídos e podemos prosseguir com o cálculo do intervalo de previsão.

Para calcular o intervalo o analista primeiro encontra o valor

em uma tabela publicada de valores críticos para a distribuição t do aluno no nível de confiança escolhido. Neste exemplo,

Próximo, os valores para

, s, e n são inseridos na Eqn. 3 para produzir o seguinte intervalo de previsão:

O intervalo neste caso é 6,52 ± 0,26 ou, 6,26 – 6,78. A interpretação do intervalo é que se amostras sucessivas fossem puxadas e testadas a partir da mesma população; ou seja o mesmo lote ou o mesmo número de lote, 95% dos intervalos calculados para os conjuntos de amostras individuais deverão conter uma única leitura de pH futura.

Se, em vez de uma única observação futura, o analista quisesse calcular um intervalo de previsão de dois lados para incluir um número múltiplo de observações futuras, o analista simplesmente modificaria o t em Eqn. 3. embora existam métodos exatos para derivar o valor de t para múltiplas observações futuras, na prática é mais simples ajustar o nível de t dividindo o nível de significância, a, pelo número de múltiplas observações futuras a serem incluídas no intervalo de previsão. Isto é feito para manter o nível de significância desejado em toda a família de observações futuras. Assim, em vez de encontrar o valor para

, encontraríamos o valor paraonde k é o número de observações futuras a serem incluídas no intervalo de predição.

Existem também situações em que apenas um limite inferior ou um limite superior é de interesse. Tomemos, por exemplo, um critério de aceitação que requer apenas uma propriedade física de um material para cumprir ou exceder um valor mínimo, sem limite superior ao valor da propriedade física. Nesses casos, o analista gostaria de calcular um intervalo unilateral. Para calcular um intervalo unilateral o analista simplesmente removeria o 2 do divisor; assim

tornar-se-iaetornar-se-ia.

Intervalo de previsão para regressão

Voltamos agora para a aplicação de intervalos de previsão nas estatísticas de regressão linear. Nas estatísticas de regressão linear, um intervalo de previsão define um intervalo de valores dentro do qual uma resposta é susceptível de cair dado um valor especificado de um preditor. Os dados da regressão linear são, por definição, não-normalmente distribuídos. Os dados normalmente distribuídos são estatisticamente independentes uns dos outros, enquanto os dados regressivos dependem de um valor de previsão; ou seja, o valor de Y depende do valor de X. Devido a essa dependência, os intervalos de previsão aplicados às estatísticas de regressão linear são consideravelmente mais envolvidos no cálculo do que os intervalos de previsão para dados normalmente distribuídos.

A incerteza representada por um intervalo de previsão inclui não apenas as incertezas (variação) associadas à média da população e à nova observação, mas também a incerteza associada aos parâmetros da regressão. Como as incertezas associadas à média da população e à nova observação são independentes das observações usadas para se ajustar ao modelo, as estimativas de incerteza devem ser combinadas usando a soma raiz de quadrados para produzir a incerteza total,

. Denotando a variação contribuída pelos parâmetros de regressão como, a variação contribuída pela estimativa da média da população como, e a variação contribuída pela nova medida como s , a variação total,, é definida como:

Onde

é expressa em termos dos preditores usando a seguinte relação:

Adicionando Eqn. 5 aos outros dois termos sob a raiz quadrada em Eqn. 3, obtém-se a fórmula de intervalo de previsão de dois lados para a variável de resposta regressiva

. O ‘chapéu’ sobre y indica que a variável é uma estimativa devido à incerteza dos parâmetros de regressão e o 0 subscrito é um número de índice indicando que y é a primeira variável de resposta estimada.

Avaliação de Eqn. 6 é melhor obtida usando a Análise de Variância (ANOVA). Abaixo está a sequência de passos que podem ser seguidos para calcular um intervalo de previsão para uma variável de resposta regressiva dado um valor especificado de um preditor.

1. Prepare uma tabela de dados brutos e calcule médias

2. Prepare uma tabela de somas

3. Calcule a inclinação e intercepte os dados regressivos

As equações do Passo 3 representam os parâmetros da regressão; isto é, a inclinação e intercepte definindo a linha de melhor ajuste para os dados. O intervalo de previsão para a variável de resposta estimada,

, deve ser avaliado em um x especificado usando a relação. O intervalo de predição então entre parênteses a resposta estimada no valor especificado de x,

Calcular a soma dos quadrados e termos de erro

4. Calcule o intervalo de predição para conter um único

dado x

Por exemplo, suponha que um analista tenha coletado dados brutos para um processo e que uma relação linear seja suspeita de existir entre uma variável preditora denotada por x e uma variável de resposta denotada por

. O analista quer saber com 95% de confiança a região na qual um valor paraé provável que caia dado um valor arbitrário de x. Os dados brutos são apresentados abaixo.

Seguindo o procedimento ANOVA descrito acima, o analista primeiro calcula a média da variável preditor, x, e da variável resposta,

.

Próximo, o analista prepara uma tabela de somas.

Após completar a tabela de somas, o analista procede ao cálculo da inclinação

, Intercepção, Soma Total dos Quadrados (SSTotal), Soma dos Quadrados dos Resíduos (SSResiduals), Soma dos Quadrados do Erro (SSError) e do Erro (Se) para os dados.

Próximo, o analista calcula o valor da variável resposta,

, no valor desejado da variável preditor, x. Neste caso o valor desejado do preditor é 5.

Agora, antes de computar o intervalo de predição, seria sábio que o analista traçasse os dados brutos junto com a resposta predita definida por

num gráfico de dispersão para verificar a relação linear. Se os dados forem de fato lineares, os dados devem seguir de perto a linha de tendência com cerca de metade dos pontos acima e metade dos pontos abaixo (veja Figura 3). Dados que não acompanham de perto a linha de tendência indicam que a relação linear é fraca ou que a relação é não linear e algum outro modelo é necessário para obter um ajuste adequado. Neste caso, o cálculo de um intervalo de previsão não deve ser tentado até que um modelo mais adequado seja encontrado. Além disso, se a relação for fortemente linear, um gráfico de probabilidade normal dos resíduos deve render um valor P muito maior do que o nível de significância escolhido (um nível de significância de 0,05 é típico). Os resíduos podem ser facilmente calculados subtraindo os valores reais de resposta dos valores previstos e preparando uma probabilidade normal dos valores residuais (ver Figura 4).

Figure 3: Gráfico de dispersão mostrando a linha de tendência linear-regressada para a resposta estimada.
Figure 4: Gráfico de probabilidade normal dos resíduos. Os valores residuais individuais estão bem dentro das faixas de intervalo de confiança 1-a e o valor P é muito maior que o nível de significância de a=0,05; portanto, não rejeitamos a suposição de que os resíduos estão normalmente distribuídos e podemos prosseguir com o cálculo do intervalo de previsão.

Após estabelecer a relação linear entre as variáveis preditoras e de resposta e verificar a suposição de que os resíduos estão normalmente distribuídos, o analista está pronto para calcular o intervalo de previsão. O analista começa por encontrar primeiro o valor para a distribuição t do aluno igual a 95% de confiança (ou seja, a=0,05). Como o analista está interessado em um intervalo de dois lados, a deve ser dividido por 2. O valor correto para t nesta instância dado que a/2=0,025 e n-2 = 8 é 2,306,

Com o valor correto para

em mãos, o analista calcula o intervalo usando Eqn. 6 e o valor preditor de 5.

Figure 5 mostra o gráfico de dispersão da figura 3 com os limites superior e inferior do intervalo de previsão calculado.

Figure 5: Gráfico de dispersão com limites de intervalo de previsão para a resposta estimada, . O valor da previsão neste caso é 5,

Assim, o intervalo esperado para conter o valor previsto para y em x=5 com 95% de confiança é de 19,15 – 32,07. Este procedimento deve ser repetido para outros valores de x porque a variação associada com os parâmetros estimados pode não ser constante em toda a faixa do preditor. Por exemplo, os intervalos de previsão calculados podem ser menores em valores menores para x e maiores para valores maiores de x,

Este método para calcular um intervalo de previsão para dados de regressão linear não funciona para relações não lineares. Estes casos requerem a transformação dos dados para emular uma relação linear ou aplicação de outras distribuições estatísticas para modelar os dados. Estes métodos estão disponíveis na maioria dos pacotes de software estatístico, mas a explicação destes métodos está além do escopo deste artigo.

Conclusão

Intervalos de previsão fornecem um meio para quantificar a incerteza de uma única observação futura de uma população, desde que a distribuição subjacente seja normal. Os intervalos de previsão podem ser criados para dados normalmente distribuídos, mas são mais adequados para quantificar a incerteza associada a uma resposta prevista nas estatísticas de regressão linear. Como os intervalos de previsão se referem às observações individuais de uma população, bem como às estimativas dos parâmetros, os intervalos de previsão serão necessariamente mais amplos do que um intervalo de confiança calculado para o mesmo conjunto de dados. Pela mesma razão, os intervalos de previsão também são mais susceptíveis à suposição de normalidade do que os intervalos de confiança.

Na Parte III desta série vamos examinar um intervalo para cobrir uma proporção específica da população com uma dada confiança. Este tipo de intervalo é chamado de Intervalo de Tolerância e é especialmente útil quando o objetivo é demonstrar a capacidade de um processo para atender requisitos de desempenho especificados, tais como limites de especificação associados a uma característica de qualidade crítica do produto.

Saiba mais sobre os serviços de Validação de Processos do ProPharma Group.
Contate-nos para entrar em contato com Fred e nossos outros especialistas no assunto para uma solução personalizada de Validação de Processos.

Deixe uma resposta

O seu endereço de email não será publicado.