アルゴリズム (正規性の検定)

内容

1 シャピロ・ウイルク検定
2 コルモゴルフ・スミルノフ検定
3 リリーフォースの正規性の検定
4 Anderson-Darling検定
5 D'Agostino-K 二乗
6 Chen-Shapiro検定

シャピロ・ウイルク検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、シャピロ・ウィルクのW統計量は次のように定義されます。

\[w=\frac{\left (\sum_{i=1}^n a_ix_i\right)^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\]

ここで

\[\bar{x}=\frac{1}{n}\sum_{1}^n x_i\]

上記は標本の平均で、 aiのi=1, 2, …, n は数学的な重みであり、その値は、サンプルサイズnだけに依存します。

Originで使われるアルゴリズムは、Patrick Royston (1995)による Applied Statistics Algorithm R94 を利用しています。関数はサンプルサイズ3をサポートしています。

自由度(DF)は、サンプルサイズと同じです。

コルモゴルフ・スミルノフ検定

Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

リリーフォースの正規性の検定

リリフォース検定は、コルモゴルフ－スミルノフ検定を改良したもので、統計値はコルモゴルフ－スミルノフ検定と同じ方法で計算されます。しかし、p値はリリーフォース検定がデータの平均と分散を考慮しないので、コルモゴルフ－スミルノフ検定のp値とは異なります。DallalとWilkinson (1986)の方法がp値の計算に使われます。

Anderson-Darling 検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、Anderson Darling統計量は次のように定義されます。

$A 2 = - n - S$

ここで

\[S=\sum_{i=1}^n \frac{2i-1}{n}[lnF(x_i)+ln(1-F(x_n+1-i))]\]

$F$ は $F$ 分布の累積分布関数を表しています。

D'Agostino-K 二乗

統計の歪み
1. 歪み $\sqrt{b_1}$ をデータから計算します。
  
  \[\sqrt{b_1}= \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^3}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^{3/2}}\]
2. 算出結果
  
  \[Y=\sqrt{b_1}[\frac{(n+1)(n+3)}{6(n-2)}]^{1/2}\]
  
  \[\beta_2(\sqrt{b_1})=\frac{3(n^2+27n-70)(n+1)(n+3)}{(n-2)(n+5)(n+7)(n+9)}\]
  
  \[W^2=-1+[2(\beta_2(\sqrt{b_1})-1)]^{1/2}\]
  
  \[\delta=\frac{1}{\sqrt{lnW}}\]
  
  \[\delta=\frac{1}{\sqrt{lnW}}\]
3. 統計の歪み $Z(\sqrt{b_1})$ は以下の等式で計算されます。
  
  \[Z(\sqrt{b_1}) = \delta ln(Y/\alpha+[(Y/\alpha)^2+1]^{1/2})\]

尖度の統計
1. データから尖度 $b_2$ を算出します。
  
  \[b_2 = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^4}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^2} - 3 \]
2. \[b_2\] の平均と分散を算出します。
  
  \[E(b_2)=\frac{3(n-1)}{n+1}\]
  
  \[var(b_2)=\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}\]
3. \[b_2\] の瞬間標準化を計算するには次のように行います。
  
  \[\sqrt{\beta_1(b_2)}=\frac{6(n^2-5n+2)}{(n+7)(n+9)}\sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-3)}} \]
4. 算出結果
  
  \[A=6+\frac{8}{\sqrt{\beta_1(b_2)}} [\frac{2}{\sqrt{\beta_1(b_2)}}+\sqrt{1+\frac{4}{\beta_1(b_2)}}]\]
5. 尖度の統計$Z(b_2)$は以下の数式で計算されます。
  
  \[Z(b_2)=((1-\frac{2}{9A})-[\frac{1-2/A}{1+x\sqrt{2/(A-4)}}]^{1/3})/\sqrt{2/(9A)}\]

D'Agostinoのカイ二乗統計

\[K^2 = Z^2(\sqrt{b_1})+Z^2(b_2)\]

Chen-Shapiro検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、Chen-Shapiro 統計量は次のように定義されます。

\[QH =\sqrt{N}(1-\frac{1}{(n-1)S}\sum_{i=1}^{n-1}\frac{x_{i+1}-x_i}{H_{i+1}-H_i})\]

ここで

\[H_i = \Phi^{-1} ((i-3/8)/(n+1/4))\]と $\Phi^{-1}$ は標準正規分布の逆になります。