Understanding Statistical Intervals: Part 2 – Prediction Intervals

このシリーズの第1回目は信頼区間について述べました。 信頼区間は統計的区間の中で最もよく知られていますが、母集団のパラメータ、つまり母集団の平均や標準偏差に関連する領域のみを拘束します。 平均や標準偏差の代わりに,母集団からの個々のオブザベーションに興味があるとしたらどうだろうか?

予測区間は,いくつかの以前のオブザベーションの分布または散布に基づいて,母集団から単一または複数の将来のオブザベーションの固定数の値を予測することの不確実性を表現している. 信頼区間と同様に、単一のサンプルから計算された予測区間は、将来のオブザベーションの指定された割合が常に区間内に含まれることを意味すると解釈すべきではありません。むしろ予測区間は、同じ集団からの連続したいくつかのサンプルについて計算されたとき、予測区間が将来のオブザベーションを指定された割合の時間で含むことを意味すると解釈すべきなのです。

例:観測値のサンプルを収集し、そのサンプルに基づいて 95% の予測区間を計算すると、将来の観測値が予測区間内に含まれる確率は 95% です。 逆に、次の観測が区間内に含まれない確率も5%です。 もし、20個のサンプルを集め、それぞれについて予測区間を計算すると、計算された区間のうち19個は将来の観察が1つ含まれ、1個は将来の観察が1つも含まれないと予想されます。 この予測区間の解釈は図1にグラフで示されている。 同一集団から抽出した10個のpH測定値からなる各20個のサンプルに対する予測区間の上限および下限のプロット。 このプロットは、20個の個々の将来の観測も含んでいる。 20の単一の将来のpH測定値(赤で囲った)のうち1つが関連する予測区間領域の外側であることに注意してください。

予測区間は、回帰統計で最もよく使われますが、正規分布データでも使われるかもしれません。

Prediction Interval for Normal Data

予測区間の公式は信頼区間の計算に使われる公式とほぼ同じである。 両側信頼区間の公式は

ここで

は標本平均、sは標本標準偏差、nは標本サイズ、1-aは希望の信頼度、は自由度n-1の学生のt分布の100(1-a/2)%であることを思い出してほしい。

予測区間を計算する式に必要なことは、平均値に関する1つの観測値の変動を考慮するために余分な項を加えることである。 この変動は式2の平方根記号の下にある1/nの項に1を加えることで説明されます。 このようにすると正規分布のデータに対する予測区間の公式が得られます:

例として、このシリーズのパートIのpHの例でもう一度見てみましょう。 pHの例から次のデータがあります:

アナリストは、これまでに収集したサンプルに基づいて、将来の単一のpH観測があるレベルの信頼度で横たわる可能性がある両側区間を知りたいと考えています。 この例では、平均pH,

は6.52で、サンプルの標準偏差、sは0.11である。 信頼度は95%(a=0.05)

図2:pHデータの正規確率プロット

母集団分布の中心のみを対象とする信頼区間とは異なり、予測区間は中心だけでなく分布の尾も考慮される。 その結果、予測区間は、信頼区間よりも正規性の仮定に大きな感度を持ち、したがって、正規性の仮定は、予測区間を計算する前にテストされるべきです。 正規性の仮定は,Minitabのような適切な統計ソフトウェアを使用して,グラフィカルかつ定量的に検定することができる. この例では、分析者はデータをMinitabに入力し、正規確率プロットが生成されます。 正規確率プロットは図2に示されています。
確率プロットを見ると、すべてのデータが95% (1-a) 信頼区間内に収まっていることがわかります。 さらに、P-Valueは有意水準a = 0.05よりはるかに大きい。したがって、我々はデータが正規分布であるという仮定を否定せず、予測区間の計算に進むことができる。

区間を計算するには、アナリストはまず選択した信頼水準でのスチューデントのt分布の臨界値の公表された表で値

を見つける。 この例では、

次に、

、s、およびnの値を式3に入力し、次の予測区間を得ます。

この場合の区間は、6.52±0.26、または、6.26〜6.78である。 この区間の解釈は、連続したサンプルが同じ母集団から採取され、テストされた場合です。

もし、単一の将来の観測の代わりに、分析者が複数の将来の観測を含むように両側予測区間を計算したい場合は、分析者は単に式(1)のtを変更するでしょう。 複数の将来のオブザベーションのtの値を導き出す正確な方法が存在するが,実際には,有意水準,aを予測区間に含まれる複数の将来のオブザベーションの数で割って,tの水準を調整する方が簡単である. これは,将来のオブザベーションの全ファミリーにわたって望ましい有意水準を維持するために行われる. したがって,

の値を見つける代わりに,の値を見つけることになり,kは予測区間に含まれる将来のオブザベーションの数である. 例えば、材料の物理的特性が最小値を満たすか超えることだけを要求し、物理的特性の値に上限がない受け入れ基準を考えてみます。 このような場合、分析者は片側区間を計算したいと思うでしょう。 片側区間を計算するには、分析者は単純に除数から2を取り除く。したがって、 になり、になる。

回帰の予測区間

ここで線形回帰統計における予測区間の適用に目を向ける。 線形回帰統計では,予測区間は,予測変数の指定された値が与えられると,応答がその中に落ちそうな値の範囲を定義する. 線形回帰されたデータは,定義上,非正規分布である. この依存性のために、線形回帰統計に適用される予測区間は、正規分布データの予測区間よりもかなり計算が必要です。

予測区間で表される不確実性は、母平均と新しい観測値に関連する不確実性(変動)だけではなく、回帰パラメータに関連する不確実性も含みます。 母平均と新しいオブザベーションに関連する不確実性は、モデルを適合するために使用されるオブザベーションから独立しているので、不確実性の推定値は、合計の不確実性、

を得るために二乗根を使用して結合されなければなりません。 回帰パラメータによる変動を、母平均の推定値による変動を、新しい測定値による変動をs とすると、合計変動、、は次のように定義されます。

ここで

は次の関係を用いて予測変数で表される。

式3の平方根の下の他の2つの項に式5を追加すると、回帰された応答変数

の両側予測区間式が得られる。 yの上の「ハット」は、その変数が回帰パラメータの不確実性による推定値であることを示し、添え字の0は、yが最初に推定された応答変数であることを示す添え字番号である。

式6の評価は、分散分析(ANOVA)を用いて行うのが最適である。 以下は,予測変数の指定された値で回帰された応答変数の予測区間を計算するために従うことができるステップのシーケンスである. 生データの表を作成し、平均を計算する

2. 合計の表を作成する

3. 回帰データの傾きと切片を計算する

ステップ3の式は回帰パラメータ、つまりデータの最適な直線を定義する傾きと切片を表している。 推定応答変数の予測区間,

は,関係式を用いて,指定されたxで評価されなければならない. 予測区間はxの指定された値で推定応答を括ります。

二乗和と誤差項

4 を計算します。 xが与えられたときに単一の

を含むように予測区間を計算する

例えば、アナリストがプロセスの生データを収集して、xで示される予測変数と

で示される応答変数間に直線関係が存在すると疑わしいとします。 分析者は、xの任意の値が与えられたとき、の値が落ちそうな領域を95%の信頼度で知りたいとします。

上で概説したANOVA手順に従って、分析者はまず予測変数xと応答変数

の両方の平均を計算する。

総和の表を完成した後、分析者はデータの傾き

、切片、総2乗和(SSTotal)、残差の2乗和(SSResiduals)、誤差の2乗和(SSError)、誤差(Se)の算出に進む。

次に、分析者は、予測変数の望ましい値xで応答変数

の値を計算する。

さて、予測区間を計算する前に、線形関係を検証するために散布図で

で定義された予測応答と一緒に生データをプロットすることが賢明であると考えられる。 データが実際に線形である場合、データは傾向線に沿って密接に追跡し、約半分のポイントが上、半分のポイントが下にあるはずです(図3参照)。 トレンドラインに沿わないデータは、線形関係が弱いか、非線形関係であり、適切な適合を得るために他のモデルが必要であることを示している。 この場合、より適切なモデルが見つかるまでは、予測区間の計算を試みてはならない。 また、関係が強い線形である場合、残差の正規確率プロットは、選択した有意水準(0.05の有意水準が典型的)よりはるかに大きなP値をもたらすはずである。

図3:推定応答に対する線形回帰した傾向線を示す散布図
図4:残差の正規確率プロット.予測値から実際の応答値を引き、残差値の正規確率を用意すれば容易に計算できる。 したがって,我々は残差が正規分布であるという仮定を否定せず,予測区間の計算に進むことができる.

予測変数と応答変数の間の線形関係を確立し,残差が正規分布であるという仮定をチェックすると,分析者は予測区間を計算する準備ができる. 分析者は,まず95% 信頼水準(すなわち,a=0.05)に等しいStudent’s t 分布の値を見つけることから始める. a/2=0.025 と n-2 = 8を考えると,この事例でのtの正しい値は2.306である.

の正しい値を手にして,分析者は式6と予測変数の値5を用いて区間を計算する.

Figure 5: Scatter plot with prediction interval bounds for the estimated response, .図3から、計算した予測区間の上限と下限を追加した散布図です。 この場合の予測値は5です。

したがって、95%の信頼度でx=5でのyの予測値を含むと期待される区間は、19.15 – 32.07です。 推定されたパラメータに関連する変動が予測値の範囲を通して一定でない場合があるので、この手順をxの他の値について繰り返す必要がある。 例えば、計算された予測区間はxの低い値では小さく、xの高い値では大きくなることがあります。

線形回帰したデータに対して予測区間を計算するこの方法は、非線形関係には使えません。 このような場合は、線形関係をエミュレートするためにデータを変換するか、データをモデル化するために他の統計分布を適用する必要があります。 これらの方法はほとんどの統計ソフトパッケージで利用可能であるが、これらの方法の説明はこの記事の範囲外である。

結論

予測区間は、基礎となる分布が正規分布であれば、集団からの将来の単一観測の不確かさを定量化するための手段を提供するものである。 予測区間は正規分布のデータに対して作成することができるが、線形回帰統計における予測された応答に関連する不確実性を定量化するために最も適している。 予測区間は母集団の個々の観測値とパラメータ推定値に関係するので、予測区間は同じデータセットについて計算された信頼区間より必然的に広くなる。 同じ理由で、予測区間は信頼区間よりも正規性の仮定に影響されやすい。

このシリーズの第3部では、与えられた信頼度で母集団の特定の割合をカバーする区間を検討することにする。 このタイプの区間は許容区間と呼ばれ、製品の重要な品質特性に関連する仕様限界など、指定されたパフォーマンス要件を満たすプロセスの能力を実証することが目的の場合に特に有用です。

ProPharma Group のプロセス バリデーション サービスの詳細については、
お問い合わせください。

コメントを残す

メールアドレスが公開されることはありません。