アルゴリズム (一元配置分散分析)

内容

1 One-Way ANOVAの理論
2 分散の等質性
3 複数の平均比較
4 検出力解析

一元配置分散分析(One-Way ANOVA)の理論

k 個のレベルで測定された反応データがあるとします。ここで\[y_{ij}\,\!\] は、 j 番目のファクターレベル (j = 1, 2, ..., k)での、i番目の観測値(i = 1, 2, ...\[n_j\]) の値を表します。そして、一元配置ANOVAのモデルを以下のように書きます。

\[y_{ij}=u+t_j+\varepsilon _{ij}\],j = 1,2, ..., k; i = 1, 2, ...\[n_j\]

ANOVA検定は、2つ以上の母集団(レベル)が等しいかどうかを調べます。ですから、帰無仮説は、異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。数学的に、これは次のように表すことができます。

H0:\[\mu =\mu _1=\mu _2=\cdots =\mu _k\]

H1:\[\mu _p\neq \mu _q\]いくつかのpとqでは、\[1 \leq p\]と\[q \geq k\]が成り立ちます。

ここで \[\mu _i\,\!\]は、 j番目の標本の平均です。仮説を検定するには、全サンプルをいくつかのグループに分け、グループ内の変化に対して、F-検定を行い、2つの変化が異なるかどうかを検定します。

数学的には、変化を推定する各部の平均平方を使うことが出来ます。

\[\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y)^2=\sum_{j=1}^kn_j(\bar y_j-\bar y)^2+\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y_j)^2\]

ここで、左側の項は、二乗和の合計で、 2番目の項はtreatmentの二乗和で、これはグループ間の変化を表し、3番目の項は、誤差の二乗和で、グループ内の変化を表します。式は、一般に次のように表します。

\[SS_{Total}=SS_{Treatment}+SS_{Error}\,\!\]

\[H_0\,\!\] が真のとき、k レベルの標本データは、正規かつ独立して分散しており、平均 \[\mu\,\!\]と分散 \[\sigma ^2\,\!\]を持っています。つまり、統計量は

\[F=\frac{MS_{Treatment}}{MS_{Error}}=\frac{ss_{Treatment}/(k-1)}{ss_{Error}/(n-k)}\]

F分布 \[F_{(k-1, n-k)}\,\!\] に従い、\[MS_{Treatment}\]はtreatmentsの平均平方、\[MS_{Error}\]はは誤差の平均平方になり、これらはそれぞれ自由度で二乗和を除算した形になっています。ある有意水準\[\alpha\,\!\]が与えられてF 統計量が棄却値\[F_{(k-1,n-k,\alpha)}\,\!\] を超える場合、帰無仮説は棄却されます。このとき、F 統計量は、有意水準\[\alpha\,\!\] または同等の有意水準以下のP値で k-1 および n-k の自由度を持つF分布のこれは表形式の値です。

通常、ANOVA表の分散分析の結果を表します。

分散の入力	自由度 (DF)	平方和 (SS)	平均平方 (MS)	F 値	Prob > F
モデル (ファクター)	k-1	\[SS_{Treatme}\]	\[MS_{Treatment}\]	\[MS_{Treatment}\] / $MS_{Error}$	\[P\{F\geq F_{(k-1,n-k,\alpha )}\}\]
誤差	n-k	\[SS_{Error}\]	\[MS_{Error}\]
合計	n-1

分散の等質性

分散分析で、ことなるサンプルが等分散であると仮定すると、それは、一般に分散の等質性と呼ばれます。Levene検定とBrown-Forsythe検定は、仮定を検証するのに使うことができます。k 個の反応データの標本があるものとします。ここで\[y_{ij}\,\!\]は、jt番目のファクターレベル (j = 1, 2, ..., k)でのi番目の観測 (i = 1, 2, ...\[n_j\]) を表します。Levene検定とBrown-Forsythe検定の両方の仮説は、次の式で表すことが出来ます。

$H 0$ :\[\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k\]

$H 1$ :\[\sigma^2 _p\neq \sigma^2 _q\] 少なくとも1組の(p, q)に対して\[1\leq p,q\leq k\]

\[Z_{ij}\,\!\] を異なる検定に従い、次の3つのように定義します。

絶対Levene検定:$Z_{ij}=|y_{ij}-\bar y_j|$
Squared Levene検定:$Z_{ij}^2=(y_{ij}-\bar y_j)^2$
Brown-Forsythe検定:$Z_{ij}=|y_{ij}-m_j|\,\!$

\[H_0\] を持つと、検定の統計量は

\[F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}\]

になり、これは(近似的に)F分布\[F_{(k-1,n-k)}\,\!\]に従い、\[\overline{Z_j}\] と \[\overline{Z}\]は、それぞれ\[Z_{ij}\,\!\]の集団平均および全体平均となります。

複数の平均比較

少なくとも1つの母平均が十分異なることを調べるANOVAを実行すると、それに続けて、平均が異なるかどうかすべてのファクターでの可能な組合せで、複数の平均の比較が行われます。Originでは、平均比較にさまざまな方法があり、これはNAG関数のnag_anova_confid_interval (g04dbc) を使って行っています。

複数の平均の比較法の2種類がOriginに含まれています。

シングルステップ法これは、Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Schefféを含む、平均がどの程度違うのかを示すために信頼区間を作成します。
ステップワイズ法Holm-Bonferroni 、Holm-Sidak 検定を含む仮説検定を実行します。

詳細はNAGヘルプを参照してください。

検出力解析

検出力分析は、サンプルデータに対する仮説の検出力だけでなく、実際の検出力を計算します。

一元配置ANOVAの検出力は、その敏感度の計測です。検出力は、一元配置ANOVAが実際の差があるときの標本の平均の差を検出するものです。帰無仮説および対立仮説に関して、検出力は検定する統計量 F が、実際に帰無仮説を棄却すべき(例：与えられた帰無仮説が真でない)ときに、帰無仮説を棄却するのに十分であるという確率です。

検出力は次式で定義されます。

\[power=1-probf(f,dfa,dfe,nc)\,\!\]

ここで f は、非心のF-分布の偏りで、このF分布は dfa (モデルの自由度)とdfe(誤差の自由度) を持ちます。そして、nc = SST/MSE, ここで、SST は、モデルの二乗和、MSE は、誤差の平均平方です。probf( ) の値が、NAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得されます。詳細はNAG文書をご覧ください。

上記は、簡単な一元配置ANOVAのアルゴリズムの概要であり、詳細な数学的な演算については、このマニュアルの対応する部分やNAG文書を参照してください。