アルゴリズム(分布フィット)
内容 |
変数に分布をフィットするために分布フィットを使用します。
与えられた変数のフィットには、7つの分布を使用できます。パラメータ推定量として最尤法を計算します。いくつかの連続分布では、信頼限界だけでなくフィットの良さの検定を利用できます。
分布と最尤法(MLE)
正規分布
-
- \[\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]\]
ここで \(-\infty <x, \mu<\infty\) かつ\(0 < \sigma\)です。\(E(X)=\mu\) と \(Var(X)=\sigma^2\)です。
最尤法(MLE)
パラメータ
- \[\hat{\mu} = \bar{X}_n\]
- \(\hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}\).
信頼区間
\(\mu\) と \(\sigma\) の信頼区間は
- \[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]\]
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。\(\hat{\mu}_{se}\) は、\(\hat{\sigma}_{se}\)が\(\sigma\)である時の\(\mu\)の標準誤差です。
対数正規分布
- \[\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]\]
ここで \(0 \leq x, -\infty < \mu < \infty\) かつ\( 0 < \sigma\)です。\(E(X)=exp(\mu + \sigma^2/2)\) と \(Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )\)です。
最尤法(MLE)
パラメータ
- \[\hat{\mu} = ln\left(\bar{X}_n \right)\]
- \(\hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right)\).
信頼区間
\(\mu\) と \(\sigma\) の信頼区間は
- \[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]\]
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。\(\hat{\mu}_{se}\) は、\(\hat{\sigma}_{se}\)が\(\sigma\)である時の\(\mu\)の標準誤差です。
ワイブル分布
- \[\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],\]
ここで、\(\alpha , \beta > 0\)です。\(E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)\) と \(Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}\)です。
最尤法(MLE)
Originは、ワイブル分布の統計の(MLE) のためにNAG関数 nag_estim_weibull (g07bec) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。
指数分布
- \[\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]\]
ここで \(0 \leq x, -\infty < \mu < \infty\) かつ\( 0 < \sigma\)です。\(E(X)=\sigma\) と \(Var(X)=\sigma^2\)です。
最尤法(MLE)
パラメータ
\[\hat{\sigma} = \bar{X}_n\]
信頼区間
\(\sigma\) の信頼区間は
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。\(\hat{\sigma}_{se}\) は \(\sigma\) の標準誤差です。
ガンマ分布
- \[\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),\]
ここで、\(\alpha , \sigma > 0\)です。\(E(X)=\alpha \sigma\) と \(Var(X)=\alpha \sigma ^2\)です。
最尤法(MLE)
パラメータ
\(\alpha\) と \(\sigma\) のMLEを手動で計算するのは、簡単ではありません。しかし、Newton-Raphsonメソッドを使用すれば、簡易化できます。尤度関数の平方根を生成するために、次式であらわされる、適切な初期推定値が必要です。 \(\alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).\)
信頼区間
\(\alpha\) と \(\theta\) の信頼区間は
- \[\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]\]
- \[\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。\(\hat{\alpha}_{se}\) は、\(\hat{\theta}_{se}\)が\(\theta\)である時の\(\alpha\)の標準誤差です。
二項分布
- \[\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},\]
ここで \(0 \leq p \leq 1\) かつ\(x=0,1,2,...,n\)です。\(E(X)=np\) と \(Var(X)=np(1-p)\)です。与えられた成功数 \(x\) とサンプルサイズ \(n\) です。
最尤法(MLE)
パラメータ
\[\hat{p} = x/n\]
信頼区間
- \[\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。
ポアソン分布
- \[e^{-\lambda}\frac{{\lambda}^x}{x!},\]
ここで、\(x=1,2,...,n\)です。\(E(X)=Var(X)=\lambda\)です。
最尤法(MLE)
パラメータ
\(\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k\).
信頼区間
\(\lambda\) の信頼区間は
- \[\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]\]
ここで \(z\) は、信頼水準 \(95\%\) の標準正規分布の \(0.975\) 棄却値です。
フィットの良さ
Kolmogorov-Smirnov
Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。
Kolmogorov-Smirnov(修正)
- 修正Kolmogorov-Smirnov 統計
修正Kolmogorov-Smirnov 統計は、異なる分布をベースにしたKolmogorov-Smirnov 統計の修正です。
- P値
Kolmogorov-Smirnov のp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。Dの値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。
ここで \(D_n\) は、Kolmogorov-Smirnov 統計です。
正規/対数正規分布
- 修正Kolmogorov-Smirnov 統計:
- \[D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)\]
- 棄却値表
| D | <0.775 | 0.775 | 0.819 | 0.895 | 0.995 | 1.035 | >1.035 |
|---|---|---|---|---|---|---|---|
| P値 | >=0.15 | 0.15 | 0.10 | 0.05 | 0.025 | 0.01 | <=0.01 |
ワイブル分布
- 修正Kolmogorov-Smirnov 統計:
- \[D=D_n\sqrt{N}\]
- 棄却値表
| D | <1.372 | 1.372 | 1.477 | 1.577 | 1.671 | >1.671 |
|---|---|---|---|---|---|---|
| P値 | >=0.1 | 0.1 | 0.05 | 0.025 | 0.01 | <=0.01 |
指数分布
- 修正Kolmogorov-Smirnov 統計:
- \[D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)\]
- 棄却値表
| D | <0.926 | 0.926 | 0.995 | 1.094 | 1.184 | 1.298 | >1.298 |
|---|---|---|---|---|---|---|---|
| P値 | >=0.15 | 0.15 | 0.10 | 0.05 | 0.025 | 0.01 | <=0.01 |
ガンマ分布
- 修正Kolmogorov-Smirnov 統計:
- \[D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)\]
- 棄却値表
| D | <0.74 | 0.74 | 0.780 | 0.800 | 0.858 | 0.928 | 0.990 | 1.069 | 1.13 | >1.13 |
|---|---|---|---|---|---|---|---|---|---|---|
| P値 | >=0.25 | 0.25 | 0.20 | 0.15 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | <=0.005 |
Anderson-Darling
- Anderson-Darling 統計
-
- \[z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]\]
- ここで
- \(F\) は指定した分布の累積分布関数を表しています。
- \(Y_i\) は順序データです: \(Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n\)
- P値
- 調整されたAnderson-Darlingのp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。\(z^{*}\)の値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。
正規/対数正規分布
- 調整Anderson-Darling 統計
-
- \[z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)\]
- P値
-
- \[p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}\]
ワイブル分布
- 調整Anderson-Darling 統計
- \[z^{*}=\left(1+\frac{0.2}{N}\right)\]
- 棄却値表
| \[z^{*}\] | <0.474 | 0.474 | 0.637 | 0.757 | 0.877 | 1.038 | >1.038 |
|---|---|---|---|---|---|---|---|
| P値 | >=0.25 | 0.25 | 0.10 | 0.05 | 0.025 | 0.01 | <=0.01 |
指数分布
- 調整Anderson-Darling 統計
- \[z^{*}=z\left(1+\frac{0.6}{N}\right)\]
- P値
-
- \[p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\ 0, z^{*} \geq 10.03 \end{cases}\]
ガンマ分布
- 棄却値表
| \[z\] | <0.486 | 0.486 | 0.657 | 0.786 | 0.917 | 1.092 | 1.227 | >1.227 |
|---|---|---|---|---|---|---|---|---|
| P値 | >=0.25 | 0.25 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | <=0.005 |
| \[z\] | <0.473 | 0.473 | 0.637 | 0.759 | 0.883 | 1.048 | 1.173 | >1.173 |
|---|---|---|---|---|---|---|---|---|
| P値 | >=0.25 | 0.25 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | <=0.005 |
| \[z\] | <0.470 | 0.470 | 0.631 | 0.752 | 0.873 | 1.035 | 1.159 | >1.159 |
|---|---|---|---|---|---|---|---|---|
| P値 | >=0.25 | 0.25 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | <=0.005 |
平均値検定
Z検定
検定統計量
\[t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]
ここで
-
- \[\bar{x}: \frac{1}{n}\sum_{i=1}^n x_i\]
- \(\mu_0\):指定された検定平均
- \(\sigma\):指定された標準偏差
P値
\(P\) は、推定正規検定統計 \(Z\) をベースにして返されます。
信頼区間
指定した有意水準で、標本の平均に対する信頼区間は次式になります。
| 帰無仮説 | 信頼区間 |
|---|---|
| \[H_0:z=z_0\,\!\] | \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\] |
| \[H_0:z \le z_0\] | \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]\] |
| \[H_0:z \ge z_0\] | \[\left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\] |