W części 1 tej serii omówiono przedziały ufności. Przedziały ufności są najbardziej znanymi przedziałami statystycznymi, ale dotyczą one tylko obszarów związanych z parametrami populacji, tj. średnią lub odchyleniem standardowym populacji. A co jeśli zamiast średniej lub odchylenia standardowego interesują nas pojedyncze obserwacje z populacji? W tym celu możemy skorzystać z przedziału predykcji.
Przedziały predykcji reprezentują niepewność związaną z przewidywaniem wartości pojedynczej przyszłej obserwacji lub stałej liczby wielu przyszłych obserwacji z populacji na podstawie rozkładu lub rozrzutu pewnej liczby poprzednich obserwacji. Podobnie jak w przypadku przedziału ufności, przedziały predykcji obliczone na podstawie pojedynczej próbki nie powinny być interpretowane jako oznaczające, że określony procent przyszłych obserwacji będzie zawsze zawarty w przedziale; raczej przedział predykcji powinien być interpretowany jako oznaczający, że po obliczeniu dla pewnej liczby kolejnych próbek z tej samej populacji, przedział predykcji będzie zawierał przyszłą obserwację w określonym procencie czasu.
Na przykład: jeśli zbierzemy próbkę obserwacji i obliczymy 95% przedział predykcji na podstawie tej próbki, istnieje 95% prawdopodobieństwo, że przyszła obserwacja będzie zawarta w przedziale predykcji. I odwrotnie, istnieje również 5% prawdopodobieństwo, że następna obserwacja nie będzie zawierała się w tym przedziale. Jeśli zbierzemy 20 próbek i obliczymy przedział predykcji dla każdej z nich, możemy oczekiwać, że 19 z obliczonych przedziałów będzie zawierało jedną przyszłą obserwację, podczas gdy 1 z obliczonych przedziałów nie będzie zawierał ani jednej przyszłej obserwacji. Taka interpretacja przedziału predykcji została przedstawiona graficznie na rysunku 1.
Przedziały predykcji są najczęściej używane w statystyce regresji, ale mogą być również używane z danymi o rozkładzie normalnym. Obliczanie przedziału predykcji dla danych normalnie rozłożonych jest znacznie prostsze niż dla danych regresyjnych, więc zaczniemy od tego.
Prediction Interval for Normal Data
Wzór na przedział predykcji jest prawie identyczny ze wzorem używanym do obliczania przedziału ufności. Przypomnijmy, że wzór na dwustronny przedział ufności to
gdzie
jest średnią z próby, s jest odchyleniem standardowym z próby, n jest wielkością próby, 1-a jest pożądanym poziomem ufności, ajest 100(1-a/2) percentylem rozkładu t Studenta o n-1 stopniach swobody.
Wszystko, co jest potrzebne do formuły obliczania przedziału predykcji, to dodanie dodatkowego terminu w celu uwzględnienia zmienności pojedynczej obserwacji na temat średniej. Ta zmienność jest uwzględniona przez dodanie 1 do terminu 1/n pod symbolem pierwiastka kwadratowego w równaniu 2. W ten sposób otrzymujemy wzór na przedział predykcji dla danych o rozkładzie normalnym:
Jako przykład, spójrzmy ponownie na przykład pH z części I tej serii. W przykładzie pH mamy następujące dane:
Analityk chce znać, na podstawie próbek zebranych do tej pory, dwustronny przedział, w którym prawdopodobnie znajdzie się pojedyncza przyszła obserwacja pH z pewnym poziomem ufności. Średnia wartość pH,
, w tym przykładzie wynosi 6,52; odchylenie standardowe próbki, s, wynosi 0,11. Wybrany poziom ufności wynosi 95% (a=0,05)
W przeciwieństwie do przedziałów ufności, które dotyczą tylko środka rozkładu populacji, przedziały predykcji biorą pod uwagę ogony rozkładu, jak również środek. W rezultacie, przedziały predykcji są bardziej wrażliwe na założenie normalności niż przedziały ufności i dlatego założenie normalności powinno być testowane przed obliczeniem przedziału predykcji. Założenie normalności można przetestować graficznie i ilościowo za pomocą odpowiedniego oprogramowania statystycznego, takiego jak Minitab. W tym przykładzie analityk wprowadza dane do programu Minitab i generuje normalny wykres prawdopodobieństwa. Normalny wykres prawdopodobieństwa przedstawiono na rysunku 2.
Patrząc na wykres prawdopodobieństwa, można zauważyć, że wszystkie dane mieszczą się w przedziałach 95% (1- a) przedziału ufności. Ponadto wartość P jest znacznie większa niż poziom istotności a = 0,05; dlatego nie odrzucamy założenia, że dane mają rozkład normalny i możemy przystąpić do obliczania przedziału predykcji.
Aby obliczyć przedział, analityk najpierw znajduje wartość
w opublikowanej tabeli wartości krytycznych dla rozkładu t Studenta przy wybranym poziomie ufności. W tym przykładzie,
Następnie, wartości dla
, s, i n są wprowadzane do równania 3, aby otrzymać następujący przedział predykcji:
Przedział w tym przypadku wynosi 6,52 ± 0,26 lub, 6,26 – 6,78. Interpretacja przedziału jest taka, że jeśli kolejne próbki były pobierane i badane z tej samej populacji, tj, tej samej partii lub tego samego numeru partii, 95% przedziałów obliczonych dla poszczególnych zestawów próbek będzie zawierało pojedynczy następny przyszły odczyt pH.
Jeśli zamiast pojedynczej przyszłej obserwacji, analityk chciałby obliczyć dwustronny przedział predykcji, aby włączyć wielokrotną liczbę przyszłych obserwacji, analityk po prostu zmodyfikowałby t w Eqn. 3. Chociaż istnieją dokładne metody uzyskania wartości t dla wielu przyszłych obserwacji, w praktyce prościej jest dostosować poziom t dzieląc poziom istotności a przez liczbę wielu przyszłych obserwacji, które mają być włączone do przedziału predykcji. Robi się to w celu utrzymania pożądanego poziomu istotności w całej rodzinie przyszłych obserwacji. W ten sposób, zamiast znajdować wartość dla
, znaleźlibyśmy wartość dlagdzie k jest liczbą przyszłych obserwacji, które mają być włączone do przedziału przewidywań.
Są też sytuacje, w których tylko dolna lub górna granica jest przedmiotem zainteresowania. Weźmy na przykład kryterium akceptacji, które wymaga tylko, aby właściwość fizyczna materiału spełniała lub przekraczała wartość minimalną, bez górnej granicy wartości właściwości fizycznej. W takich przypadkach analityk chciałby obliczyć jednostronny przedział. Aby obliczyć jednostronny przedział, analityk po prostu usunąłby 2 z dzielnika; w ten sposób
stałoby się, astałoby się.
Prediction Interval for Regression
Przechodzimy teraz do zastosowania przedziałów predykcji w statystyce regresji liniowej. W statystyce regresji liniowej przedział predykcji określa zakres wartości, w którym odpowiedź prawdopodobnie spadnie, biorąc pod uwagę określoną wartość predyktora. Dane poddane regresji liniowej są z definicji rozłożone w sposób nienormalny. Dane o rozkładzie normalnym są statystycznie niezależne od siebie, podczas gdy dane poddane regresji są zależne od wartości predyktora; tj. wartość Y zależy od wartości X. Ze względu na tę zależność, przedziały predykcji stosowane do statystyk regresji liniowej są znacznie bardziej zaangażowane w obliczanie niż przedziały predykcji dla danych o rozkładzie normalnym.
Niepewność reprezentowana przez przedział predykcji obejmuje nie tylko niepewność (zmienność) związaną ze średnią populacji i nową obserwacją, ale również niepewność związaną z parametrami regresji. Ponieważ niepewności związane ze średnią populacji i nową obserwacją są niezależne od obserwacji wykorzystanych do dopasowania modelu, oszacowania niepewności muszą być połączone przy użyciu sumy pierwiastków kwadratów, aby otrzymać całkowitą niepewność,
. Oznaczając zmienność pochodzącą od parametrów regresji jako, zmienność pochodzącą od estymaty średniej populacji jako, a zmienność pochodzącą od nowego pomiaru jako s , całkowita zmienność,, jest określona jako:
Gdzie
wyraża się w kategoriach predyktorów za pomocą następującej zależności:
Dodanie równania 5 do pozostałych dwóch wyrażeń pod pierwiastkiem kwadratowym w równaniu 3, daje wzór na dwustronny przedział predykcji dla regresowanej zmiennej odpowiedzi
. Czapka” nad y wskazuje, że zmienna jest szacunkowa ze względu na niepewność parametrów regresji, a indeks 0 jest numerem indeksu wskazującym, że y jest pierwszą szacowaną zmienną odpowiedzi.
Oszacowanie równania 6 najlepiej jest przeprowadzić za pomocą analizy wariancji (ANOVA). Poniżej przedstawiono sekwencję kroków, które można wykonać, aby obliczyć przedział predykcji dla regresowanej zmiennej odpowiedzi, biorąc pod uwagę określoną wartość predyktora.
1. Przygotować tabelę danych surowych i obliczyć średnie
2. Przygotować tabelę sum
3. Obliczyć nachylenie i przechwyt regresowanych danych
Równania w kroku 3 przedstawiają parametry regresji; tj. nachylenie i przechwyt określające najlepiej dopasowaną linię dla danych. Przedział predykcji dla szacowanej zmiennej odpowiedzi,
, musi zostać oszacowany przy określonym x przy użyciu zależności. Następnie przedział predykcji obejmuje szacowaną odpowiedź przy określonej wartości x.
Oblicz sumę kwadratów i warunki błędu
4. Oblicz przedział predykcji, aby zawierał pojedynczą
daną x
Na przykład załóżmy, że analityk zebrał dane surowe dla procesu i podejrzewa się, że istnieje liniowa zależność między zmienną predykcyjną oznaczoną przez x a zmienną odpowiedzi oznaczoną przez
. Analityk chce znać z 95% pewnością region, w którym wartość dlaprawdopodobnie spadnie, biorąc pod uwagę dowolną wartość x. Dane surowe są przedstawione poniżej.
Postępując zgodnie z przedstawioną powyżej procedurą ANOVA, analityk najpierw oblicza średnią zarówno zmiennej predyktora, x, jak i zmiennej odpowiedzi,
.
Następnie, analityk przygotowuje tabelę sum.
Po wypełnieniu tabeli sum, analityk przystępuje do obliczenia nachylenia
, punktu przecięcia, całkowitej sumy kwadratów (SSTotal), sumy kwadratów reszt (SSResiduals), sumy kwadratów błędu (SSError) i błędu (Se) dla danych.
Następnie analityk oblicza wartość zmiennej odpowiedzi,
, przy pożądanej wartości zmiennej predyktora, x. W tym przypadku pożądana wartość predyktora wynosi 5.
Teraz, przed obliczeniem przedziału predykcji, byłoby mądre dla analityka, aby wykreślić surowe dane wraz z przewidywaną odpowiedzią określoną przez
na wykresie rozrzutu, aby zweryfikować liniowy związek. Jeśli dane są w rzeczywistości liniowe, dane powinny ściśle podążać wzdłuż linii trendu z około połową punktów powyżej i połową punktów poniżej (patrz rys. 3). Dane, które nie są zbliżone do linii trendu, wskazują, że zależność liniowa jest słaba lub zależność jest nieliniowa i w celu uzyskania odpowiedniego dopasowania konieczne jest zastosowanie innego modelu. W takim przypadku nie należy podejmować próby obliczenia przedziału predykcji do czasu znalezienia bardziej adekwatnego modelu. Ponadto, jeżeli związek jest silnie liniowy, normalny wykres prawdopodobieństwa reszt powinien dać wartość P znacznie większą niż wybrany poziom istotności (poziom istotności 0,05 jest typowy). Wartości rezydualne można łatwo obliczyć, odejmując rzeczywiste wartości odpowiedzi od wartości przewidywanych i przygotowując normalny wykres prawdopodobieństwa wartości rezydualnych (zob. rysunek 4).
Po ustaleniu liniowej zależności między zmiennymi predyktora i odpowiedzi oraz sprawdzeniu założenia, że reszty mają rozkład normalny, analityk jest gotowy do obliczenia przedziału predykcji. Analityk rozpoczyna od znalezienia wartości dla rozkładu t Studenta odpowiadającej 95% poziomowi ufności (tj., a=0,05). Ponieważ analityk jest zainteresowany przedziałem dwustronnym, a musi być podzielone przez 2. Prawidłowa wartość t w tym przypadku, biorąc pod uwagę, że a/2=0,025 i n-2 = 8 wynosi 2,306.
Mając prawidłową wartość dla
w ręku, analityk oblicza przedział przy użyciu równania 6 i wartości predyktora 5.
Rysunek 5 przedstawia wykres rozrzutu z rysunku 3 z dodanymi obliczonymi górnymi i dolnymi granicami przedziału predykcji.
Więc przedział, który powinien zawierać przewidywaną wartość dla y przy x=5 z 95% pewnością wynosi 19,15 – 32,07. Procedura ta musi być powtórzona dla innych wartości x, ponieważ zmienność związana z szacowanymi parametrami może nie być stała w całym zakresie predyktorów. Na przykład, obliczone przedziały predykcji mogą być mniejsze przy niższych wartościach dla x i większe dla wyższych wartości x.
Ta metoda obliczania przedziału predykcji dla danych poddanych liniowej regresji nie działa dla zależności nieliniowych. Te przypadki wymagają przekształcenia danych w celu emulacji liniowej zależności lub zastosowania innych rozkładów statystycznych do modelowania danych. Metody te są dostępne w większości pakietów oprogramowania statystycznego, ale wyjaśnienie tych metod wykracza poza zakres tego artykułu.
Wniosek
Przedziały predykcji dostarczają środków do ilościowego określenia niepewności pojedynczej przyszłej obserwacji z populacji pod warunkiem, że podstawowy rozkład jest normalny. Przedziały predykcji mogą być tworzone dla danych o rozkładzie normalnym, ale najlepiej nadają się do ilościowego określania niepewności związanej z przewidywaną odpowiedzią w statystykach regresji liniowej. Ponieważ przedziały predykcji dotyczą zarówno poszczególnych obserwacji w populacji, jak i oszacowań parametrów, przedziały predykcji będą z konieczności szersze niż przedział ufności obliczony dla tego samego zestawu danych. Z tego samego powodu, przedziały predykcji są również bardziej podatne na założenie normalności niż przedziały ufności.
W części III tej serii przeanalizujemy przedział obejmujący określony odsetek populacji z daną ufnością. Ten typ przedziału nazywany jest przedziałem tolerancji i jest szczególnie przydatny, gdy celem jest wykazanie zdolności procesu do spełnienia określonych wymagań wydajnościowych, takich jak limity specyfikacji związane z krytyczną charakterystyką jakościową produktu.
Dowiedz się więcej o usługach walidacji procesów świadczonych przez ProPharma Group.
Kontakt z nami w celu skontaktowania się z Fredem i innymi naszymi ekspertami w dziedzinie walidacji procesów na zamówienie.