Algorithmen (Verteilungsanpassung)
Inhalt
|
Verwenden Sie die Verteilungsanpassung, um eine Verteilung an eine Variable anzupassen.
Es gibt sieben Verteilungen, die verwendet werden können, um eine gegebene Variable anzupassen. Die Maximum-Likelihood-Schätzung (MLE) wird als Parameterschätzer berechnet. Für einige stetige Verteilungen wird nicht nur die Konfidenzgrenze angegeben, sondern auch der Test der Anpassungsgüte angeboten.
Verteilungen und Maximum-Likelihood-Schätzung (MLE)
Normalverteilung
- \[\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]\]
wobei \(-\infty <x, \mu<\infty\) und \(0 < \sigma\). Mit \(E(X)=\mu\) und \(Var(X)=\sigma^2\).
Maximum-Likelihood-Schätzung (MLE)
Parameter
- \[\hat{\mu} = \bar{X}_n\]
- \(\hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}\).
Konfidenzintervalle
Das Konfidenzintervall für \(\mu\) und \(\sigma\) ist:
- \[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]\]
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
wobei \(z\) der kritische Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\mu}_{se}\) ist der Standardfehler für \(\mu\) und \(\hat{\sigma}_{se}\) für \(\sigma\).
LogNormal-Verteilung
- \(\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]\),
wobei\(0 \leq x, -\infty < \mu < \infty\) und \( 0 < \sigma\). Mit \(E(X)=exp(\mu + \sigma^2/2)\) und \(Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )\).
Maximum-Likelihood-Schätzung (MLE)
Parameter
- \[\hat{\mu} = ln\left(\bar{X}_n \right)\]
- \(\hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right)\).
Konfidenzintervall
Das Konfidenzintervall für \(\mu\) und \(\sigma\) ist:
- \[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]\]
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\mu}_{se}\) ist der Standardfehler für \(\mu\) und \(\hat{\sigma}_{se}\) für \(\sigma\).
Weibull-Verteilung
- \[\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],\]
wobei \(\alpha , \beta > 0\). Mit \(E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)\) und \(Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}\).
Maximum-Likelihood-Schätzung (MLE)
Origin ruft eine NAG-Funktion nag_estim_weibull (g07bec) für die MLE der Statistikwerte der Weibull-Verteilung auf. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.
Exponential-Verteilung
- \(\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]\),
wobei \(0 \leq x, -\infty < \mu < \infty\) und \( 0 < \sigma\). Mit \(E(X)=\sigma\) und \(Var(X)=\sigma^2\).
Maximum-Likelihood-Schätzung (MLE)
Parameter
\[\hat{\sigma} = \bar{X}_n\]
Konfidenzintervall
Das Konfidenzintervall für \(\sigma\) ist:
- \[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]
wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\sigma}_{se}\) ist der Standardfehler für \(\sigma\).
Gamma-Verteilung
- \[\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),\]
wobei \(\alpha , \sigma > 0\). Mit \(E(X)=\alpha \sigma\) und \(Var(X)=\alpha \sigma ^2\).
Maximum-Likelihood-Schätzung (MLE)
Parameter
Es ist nicht einfach, die MLE von \(\alpha\) und \(\sigma\) manuell zu berechnen. Mit der Newton-Raphson-Methode jedoch können Sie leicht Ihr Ziel erreichen. Um eine gute Wurzel der Likelihood-Schätzung zu erhalten, muss ein geeigneter Anfangsschätzer zur Verfügung stehen, der gegeben werden kann durch: \(\alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).\)
Konfidenzintervall
Das Konfidenzintervall für \(\alpha\) und \(\theta\) ist:
- \[\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]\]
- \[\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]\]
wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\alpha}_{se}\) ist der Standardfehler für \(\alpha\) und \(\hat{\theta}_{se}\) für \(\theta\).
Binomial-Verteilung
- \[\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},\]
wobei \(0 \leq p \leq 1\) und \(x=0,1,2,...,n\). Mit \(E(X)=np\) und \(Var(X)=np(1-p)\). Gegeben sind eine Anzahl von Erfolgen \(x\) und der Stichprobenumfang. \(n\)
Maximum-Likelihood-Schätzung (MLE)
Parameter
\[\hat{p} = x/n\]
Konfidenzintervall
- \[\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]\]
wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt.
Poisson-Verteilung
- \[e^{-\lambda}\frac{{\lambda}^x}{x!},\]
wobei \(x=1,2,...,n\). Mit \(E(X)=Var(X)=\lambda\).
Maximum-Likelihood-Schätzung (MLE)
Parameter
\(\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k\).
Konfidenzintervall
Das Konfidenzintervall für \(\lambda\) ist:
- \[\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]\]
wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt.
Anpassungsgüte
Kolmogorov-Smirnov
Origin ruft eine NAG-Funktion nag_1_sample_ks_test (g08cbc) auf, um die Statistik zu berechnen. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.
Kolmogorov-Smirnov (Modifiziert)
- Modifizierte Kolmogorov-Smirnov-Statistik
Die modifizierte Kolmogorov-Smirnov-Statistik ist eine Modifikation der Kolmogorov-Smirnov-Statistik basierend auf verschiedenen Verteilungen.
- p-Wert
Der p-Wert für die Kolmogorov-Smirnov-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von D zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.
Hier ist \(D_n\) die Kolmogorov-Smirnov-Statistik.
Normal-/Lognormal-Verteilung
- Modifizierte Kolmogorov-Smirnov-Statistik:
- \[D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)\]
- Tabelle der kritischen Werte
| D | <0,775 | 0,775 | 0,819 | 0,895 | 0,995 | 1,035 | >1,035 |
|---|---|---|---|---|---|---|---|
| p-Wert | >=0,15 | 0,15 | 0,10 | 0,05 | 0,025 | 0,01 | <=0,01 |
Weibull-Verteilung
- Modifizierte Kolmogorov-Smirnov-Statistik:
- \[D=D_n\sqrt{N}\]
- Tabelle der kritischen Werte
| D | <1,372 | 1,372 | 1,477 | 1,577 | 1,671 | >1,671 |
|---|---|---|---|---|---|---|
| p-Wert | >=0,1 | 0,1 | 0,05 | 0,025 | 0,01 | <=0,01 |
Exponential-Verteilung
- Modifizierte Kolmogorov-Smirnov-Statistik:
- \[D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)\]
- Tabelle der kritischen Werte
| D | <0,926 | 0,926 | 0,995 | 1,094 | 1,184 | 1,298 | >1,298 |
|---|---|---|---|---|---|---|---|
| p-Wert | >=0,15 | 0,15 | 0,10 | 0,05 | 0,025 | 0,01 | <=0,01 |
Gamma-Verteilung
- Modifizierte Kolmogorov-Smirnov-Statistik:
- \[D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)\]
- Tabelle der kritischen Werte
| D | <0,74 | 0,74 | 0,780 | 0,800 | 0,858 | 0,928 | 0,990 | 1,069 | 1,13 | >1,13 |
|---|---|---|---|---|---|---|---|---|---|---|
| p-Wert | >=0,25 | 0,25 | 0,20 | 0,15 | 0,10 | 0,05 | 0,025 | 0,01 | 0,005 | <=0,005 |
Anderson-Darling
- Anderson-Darling-Statistik
- \[z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]\]
- wobei
- \(F\) die kumulative Verteilungsfunktion der festgelegten Verteilung ist.
- \(Y_i\) die geordneten Datenpunkte sind: \(Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n\)
- p-Wert
- Der p-Wert für die Angepasste Anderson-Darling-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von \(z^{*}\) zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.
Normal-/Lognormal-Verteilung
- Angepasste Anderson-Darling-Statistik
- \[z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)\]
- p-Wert
- \[p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}\]
Weibull-Verteilung
- Angepasste Anderson-Darling-Statistik
- \[z^{*}=\left(1+\frac{0.2}{N}\right)\]
- Tabelle der kritischen Werte
| \[z^{*}\] | <0,474 | 0,474 | 0,637 | 0,757 | 0,877 | 1,038 | >1,038 |
|---|---|---|---|---|---|---|---|
| p-Wert | >=0,25 | 0,25 | 0,10 | 0,05 | 0,025 | 0,01 | <=0,01 |
Exponential-Verteilung
- Angepasste Anderson-Darling-Statistik
- \[z^{*}=z\left(1+\frac{0.6}{N}\right)\]
- p-Wert
- \[p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\\ 0, z^{*} \geq 10.03 \end{cases}\]
Gamma-Verteilung
- Tabelle der kritischen Werte
| \[z\] | <0,486 | 0,486 | 0,657 | 0,786 | 0,917 | 1,092 | 1,227 | >1,227 |
|---|---|---|---|---|---|---|---|---|
| p-Wert | >=0,25 | 0,25 | 0,10 | 0,05 | 0,025 | 0,01 | 0,005 | <=0,005 |
| \[z\] | <0,473 | 0,473 | 0,637 | 0,759 | 0,883 | 1,048 | 1,173 | >1,173 |
|---|---|---|---|---|---|---|---|---|
| p-Wert | >=0,25 | 0,25 | 0,10 | 0,05 | 0,025 | 0,01 | 0,005 | <=0,005 |
| \[z\] | <0,470 | 0,470 | 0,631 | 0,752 | 0,873 | 1,035 | 1,159 | >1,159 |
|---|---|---|---|---|---|---|---|---|
| p-Wert | >=0,25 | 0,25 | 0,10 | 0,05 | 0,025 | 0,01 | 0,005 | <=0,005 |
Mittelwerttest
z-Test
Teststatistik
\[t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]
wobei
- \[\bar{x}: \frac{1}{n}\sum_{i=1}^n x_i\]
- \(\mu_0\): Der festgelegte Testmittelwert
- \(\sigma\): Die festgelegte Standardabweichung
p-Wert
Das \(P\) wird basierend auf einer approximativen Statistik des Tests auf Normalverteilung \(Z\) wiedergegeben.
Konfidenzintervalle
Für das festgelegte Signifikanzniveau ist das Konfidenzintervall für den Stichprobenmittelwert:
| Nullhypothese | Konfidenzintervall |
|---|---|
| \[H_0:z=z_0\,\!\] | \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\] |
| \[H_0:z \le z_0\] | \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]\] |
| \[H_0:z \ge z_0\] | \[\left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\] |