アルゴリズム(分布フィット)

内容

1 分布と最尤法(MLE)
2 フィットの良さ(適合度)
3 平均値検定
1. 3.1 Z検定
2. 3.2 T検定

変数に分布をフィットするために分布フィットを使用します。

与えられた変数のフィットには、7つの分布を使用できます。パラメータ推定量として最尤法を計算します。いくつかの連続分布では、信頼限界だけでなくフィットの良さの検定を利用できます。

分布と最尤法(MLE)

正規分布

PDF

\[\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]\]

ここで $-\infty <x, \mu<\infty$ かつ$0 < \sigma$です。$E(X)=\mu$ と $Var(X)=\sigma^2$です。

最尤法(MLE)

パラメータ

\[\hat{\mu} = \bar{X}_n\]
$\hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}$.

信頼区間

$\mu$ と $\sigma$ の信頼区間は

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]\]

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

ここで $z$ は、信頼水準 $95\%$ の標準正規分布の $0.975$ 棄却値です。$\hat{\mu}_{se}$ は、$\hat{\sigma}_{se}$が$\sigma$である時の$\mu$の標準誤差です。

対数正規分布

PDF

\[\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]\]

ここで $0 \leq x, -\infty < \mu < \infty$ かつ$ 0 < \sigma$です。$E(X)=exp(\mu + \sigma^2/2)$ と $Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )$です。

最尤法(MLE)

パラメータ

\[\hat{\mu} = ln\left(\bar{X}_n \right)\]
$\hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right)$.

信頼区間

$\mu$ と $\sigma$ の信頼区間は

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]\]

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

ワイブル分布

PDF

\[\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],\]

ここで、$\alpha , \beta > 0$です。$E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)$ と $Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}$です。

最尤法(MLE)

Originは、ワイブル分布の統計の(MLE) のためにNAG関数 nag_estim_weibull (g07bec) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

指数分布

PDF

\[\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]\]

ここで $0 \leq x, -\infty < \mu < \infty$ かつ$ 0 < \sigma$です。$E(X)=\sigma$ と $Var(X)=\sigma^2$です。

最尤法(MLE)

パラメータ

\[\hat{\sigma} = \bar{X}_n\]

信頼区間

$\sigma$ の信頼区間は

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

ここで $z$ は、信頼水準 $95\%$ の標準正規分布の $0.975$ 棄却値です。$\hat{\sigma}_{se}$ は $\sigma$ の標準誤差です。

ガンマ分布

PDF

\[\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),\]

ここで、$\alpha , \sigma > 0$です。$E(X)=\alpha \sigma$ と $Var(X)=\alpha \sigma ^2$です。

最尤法(MLE)

パラメータ

$\alpha$ と $\sigma$ のMLEを手動で計算するのは、簡単ではありません。しかし、Newton-Raphsonメソッドを使用すれば、簡易化できます。尤度関数の平方根を生成するために、次式であらわされる、適切な初期推定値が必要です。 $\alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).$

信頼区間

$\alpha$ と $\theta$ の信頼区間は

\[\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]\]

\[\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]\]

ここで $z$ は、信頼水準 $95\%$ の標準正規分布の $0.975$ 棄却値です。$\hat{\alpha}_{se}$ は、$\hat{\theta}_{se}$が$\theta$である時の$\alpha$の標準誤差です。

二項分布

PDF

\[\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},\]

ここで $0 \leq p \leq 1$ かつ$x=0,1,2,...,n$です。$E(X)=np$ と $Var(X)=np(1-p)$です。与えられた成功数 $x$ とサンプルサイズ $n$ です。

最尤法(MLE)

パラメータ

\[\hat{p} = x/n\]

信頼区間

\[\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]\]

ここで $z$ は、信頼水準 $95\%$ の標準正規分布の $0.975$ 棄却値です。

ポアソン分布

PDF

\[e^{-\lambda}\frac{{\lambda}^x}{x!},\]

ここで、$x=1,2,...,n$です。$E(X)=Var(X)=\lambda$です。

最尤法(MLE)

パラメータ

$\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k$.

信頼区間

$\lambda$ の信頼区間は

\[\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]\]

ここで $z$ は、信頼水準 $95\%$ の標準正規分布の $0.975$ 棄却値です。

フィットの良さ

Kolmogorov-Smirnov

Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

Kolmogorov-Smirnov(修正)

修正Kolmogorov-Smirnov 統計

修正Kolmogorov-Smirnov 統計は、異なる分布をベースにしたKolmogorov-Smirnov 統計の修正です。

P値

Kolmogorov-Smirnov のp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。Dの値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。

ここで $D_n$ は、Kolmogorov-Smirnov 統計です。

正規/対数正規分布

修正Kolmogorov-Smirnov 統計：

\[D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)\]

棄却値表

D	<0.775	0.775	0.819	0.895	0.995	1.035	>1.035
P値	>=0.15	0.15	0.10	0.05	0.025	0.01	<=0.01

ワイブル分布

修正Kolmogorov-Smirnov 統計：

\[D=D_n\sqrt{N}\]

棄却値表

D	<1.372	1.372	1.477	1.577	1.671	>1.671
P値	>=0.1	0.1	0.05	0.025	0.01	<=0.01

指数分布

修正Kolmogorov-Smirnov 統計：

\[D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)\]

棄却値表

D	<0.926	0.926	0.995	1.094	1.184	1.298	>1.298
P値	>=0.15	0.15	0.10	0.05	0.025	0.01	<=0.01

ガンマ分布

修正Kolmogorov-Smirnov 統計：

\[D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)\]

棄却値表

D	<0.74	0.74	0.780	0.800	0.858	0.928	0.990	1.069	1.13	>1.13
P値	>=0.25	0.25	0.20	0.15	0.10	0.05	0.025	0.01	0.005	<=0.005

Anderson-Darling

Anderson-Darling 統計

\[z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]\]

ここで

$F$ は指定した分布の累積分布関数を表しています。
$Y_i$ は順序データです： $Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n$

P値

調整されたAnderson-Darlingのp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。$z^{*}$の値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。

正規/対数正規分布

調整Anderson-Darling 統計

\[z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)\]

P値

\[p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}\]

ワイブル分布

調整Anderson-Darling 統計

\[z^{*}=\left(1+\frac{0.2}{N}\right)\]

棄却値表

\[z^{*}\]	<0.474	0.474	0.637	0.757	0.877	1.038	>1.038
P値	>=0.25	0.25	0.10	0.05	0.025	0.01	<=0.01

指数分布

調整Anderson-Darling 統計

\[z^{*}=z\left(1+\frac{0.6}{N}\right)\]

P値

\[p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\ 0, z^{*} \geq 10.03 \end{cases}\]

ガンマ分布

棄却値表

**\[0 < \alpha \leq 1\]**
\[z\]	<0.486	0.486	0.657	0.786	0.917	1.092	1.227	>1.227
P値	>=0.25	0.25	0.10	0.05	0.025	0.01	0.005	<=0.005

**\[1 < \alpha \leq 8\]**
\[z\]	<0.473	0.473	0.637	0.759	0.883	1.048	1.173	>1.173
P値	>=0.25	0.25	0.10	0.05	0.025	0.01	0.005	<=0.005

**\[\alpha \geq 8\]**
\[z\]	<0.470	0.470	0.631	0.752	0.873	1.035	1.159	>1.159
P値	>=0.25	0.25	0.10	0.05	0.025	0.01	0.005	<=0.005

平均値検定

Z検定

検定統計量

\[t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]

ここで

\[\bar{x}: \frac{1}{n}\sum_{i=1}^n x_i\]
$\mu_0$:指定された検定平均
$\sigma$:指定された標準偏差

P値

$P$ は、推定正規検定統計 $Z$ をベースにして返されます。

信頼区間

指定した有意水準で、標本の平均に対する信頼区間は次式になります。

帰無仮説	信頼区間
\[H_0:z=z_0\,\!\]	\[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]
\[H_0:z \le z_0\]	\[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]\]
\[H_0:z \ge z_0\]	\[\left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]

T検定

アルゴリズム(1集団のt検定)