Algorithmen (Verteilungsanpassung)

Inhalt



Verwenden Sie die Verteilungsanpassung, um eine Verteilung an eine Variable anzupassen.

Es gibt sieben Verteilungen, die verwendet werden können, um eine gegebene Variable anzupassen. Die Maximum-Likelihood-Schätzung (MLE) wird als Parameterschätzer berechnet. Für einige stetige Verteilungen wird nicht nur die Konfidenzgrenze angegeben, sondern auch der Test der Anpassungsgüte angeboten.

Verteilungen und Maximum-Likelihood-Schätzung (MLE)

Normalverteilung

PDF

\[\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]\]

wobei \(-\infty <x, \mu<\infty\) und \(0 < \sigma\). Mit \(E(X)=\mu\) und \(Var(X)=\sigma^2\).

Maximum-Likelihood-Schätzung (MLE)

Parameter
Konfidenzintervalle

Das Konfidenzintervall für \(\mu\) und \(\sigma\) ist:

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]\]
\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei \(z\) der kritische Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\mu}_{se}\) ist der Standardfehler für \(\mu\) und \(\hat{\sigma}_{se}\) für \(\sigma\).

LogNormal-Verteilung

PDF

\(\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]\),

wobei\(0 \leq x, -\infty < \mu < \infty\) und \( 0 < \sigma\). Mit \(E(X)=exp(\mu + \sigma^2/2)\) und \(Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )\).

Maximum-Likelihood-Schätzung (MLE)

Parameter
Konfidenzintervall

Das Konfidenzintervall für \(\mu\) und \(\sigma\) ist:

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]\]
\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\mu}_{se}\) ist der Standardfehler für \(\mu\) und \(\hat{\sigma}_{se}\) für \(\sigma\).

Weibull-Verteilung

PDF

\[\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],\]

wobei \(\alpha , \beta > 0\). Mit \(E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)\) und \(Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}\).

Maximum-Likelihood-Schätzung (MLE)

Origin ruft eine NAG-Funktion nag_estim_weibull (g07bec) für die MLE der Statistikwerte der Weibull-Verteilung auf. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Exponential-Verteilung

PDF

\(\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]\),

wobei \(0 \leq x, -\infty < \mu < \infty\) und \( 0 < \sigma\). Mit \(E(X)=\sigma\) und \(Var(X)=\sigma^2\).

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{\sigma} = \bar{X}_n\]

Konfidenzintervall

Das Konfidenzintervall für \(\sigma\) ist:

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\sigma}_{se}\) ist der Standardfehler für \(\sigma\).

Gamma-Verteilung

PDF

\[\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),\]

wobei \(\alpha , \sigma > 0\). Mit \(E(X)=\alpha \sigma\) und \(Var(X)=\alpha \sigma ^2\).

Maximum-Likelihood-Schätzung (MLE)

Parameter

Es ist nicht einfach, die MLE von \(\alpha\) und \(\sigma\) manuell zu berechnen. Mit der Newton-Raphson-Methode jedoch können Sie leicht Ihr Ziel erreichen. Um eine gute Wurzel der Likelihood-Schätzung zu erhalten, muss ein geeigneter Anfangsschätzer zur Verfügung stehen, der gegeben werden kann durch: \(\alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).\)

Konfidenzintervall

Das Konfidenzintervall für \(\alpha\) und \(\theta\) ist:

\[\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]\]
\[\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]\]

wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt. \(\hat{\alpha}_{se}\) ist der Standardfehler für \(\alpha\) und \(\hat{\theta}_{se}\) für \(\theta\).

Binomial-Verteilung

PDF

\[\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},\]

wobei \(0 \leq p \leq 1\) und \(x=0,1,2,...,n\). Mit \(E(X)=np\) und \(Var(X)=np(1-p)\). Gegeben sind eine Anzahl von Erfolgen \(x\) und der Stichprobenumfang. \(n\)

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{p} = x/n\]

Konfidenzintervall
\[\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]\]

wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt.

Poisson-Verteilung

PDF

\[e^{-\lambda}\frac{{\lambda}^x}{x!},\]

wobei \(x=1,2,...,n\). Mit \(E(X)=Var(X)=\lambda\).

Maximum-Likelihood-Schätzung (MLE)

Parameter

\(\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k\).

Konfidenzintervall

Das Konfidenzintervall für \(\lambda\) ist:

\[\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]\]

wobei \(z\) den kritischen Wert \(0.975\) für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei \(95\%\) liegt.

Anpassungsgüte

Kolmogorov-Smirnov

Origin ruft eine NAG-Funktion nag_1_sample_ks_test (g08cbc) auf, um die Statistik zu berechnen. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Kolmogorov-Smirnov (Modifiziert)

Die modifizierte Kolmogorov-Smirnov-Statistik ist eine Modifikation der Kolmogorov-Smirnov-Statistik basierend auf verschiedenen Verteilungen.

Der p-Wert für die Kolmogorov-Smirnov-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von D zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.


Hier ist \(D_n\) die Kolmogorov-Smirnov-Statistik.

Normal-/Lognormal-Verteilung

\[D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)\]
D <0,775 0,775 0,819 0,895 0,995 1,035 >1,035
p-Wert >=0,15 0,15 0,10 0,05 0,025 0,01 <=0,01


Weibull-Verteilung

\[D=D_n\sqrt{N}\]
D <1,372 1,372 1,477 1,577 1,671 >1,671
p-Wert >=0,1 0,1 0,05 0,025 0,01 <=0,01

Exponential-Verteilung

\[D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)\]
D <0,926 0,926 0,995 1,094 1,184 1,298 >1,298
p-Wert >=0,15 0,15 0,10 0,05 0,025 0,01 <=0,01


Gamma-Verteilung

\[D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)\]
D <0,74 0,74 0,780 0,800 0,858 0,928 0,990 1,069 1,13 >1,13
p-Wert >=0,25 0,25 0,20 0,15 0,10 0,05 0,025 0,01 0,005 <=0,005

Anderson-Darling

\[z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]\]
wobei
  • \(F\) die kumulative Verteilungsfunktion der festgelegten Verteilung ist.
  • \(Y_i\) die geordneten Datenpunkte sind: \(Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n\)

Normal-/Lognormal-Verteilung

\[z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)\]
\[p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}\]

Weibull-Verteilung

\[z^{*}\] <0,474 0,474 0,637 0,757 0,877 1,038 >1,038
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 <=0,01

Exponential-Verteilung

\[p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\\ 0, z^{*} \geq 10.03 \end{cases}\]


Gamma-Verteilung

\[0 < \alpha \leq 1\]
\[z\] <0,486 0,486 0,657 0,786 0,917 1,092 1,227 >1,227
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005


\[1 < \alpha \leq 8\]
\[z\] <0,473 0,473 0,637 0,759 0,883 1,048 1,173 >1,173
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005


\[\alpha \geq 8\]
\[z\] <0,470 0,470 0,631 0,752 0,873 1,035 1,159 >1,159
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005

Mittelwerttest

z-Test

Teststatistik

\[t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]

wobei

  • \[\bar{x}: \frac{1}{n}\sum_{i=1}^n x_i\]
  • \(\mu_0\): Der festgelegte Testmittelwert
  • \(\sigma\): Die festgelegte Standardabweichung

p-Wert

Das \(P\) wird basierend auf einer approximativen Statistik des Tests auf Normalverteilung \(Z\) wiedergegeben.


Konfidenzintervalle

Für das festgelegte Signifikanzniveau ist das Konfidenzintervall für den Stichprobenmittelwert:

Nullhypothese Konfidenzintervall
\[H_0:z=z_0\,\!\] \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]
\[H_0:z \le z_0\] \[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]\]
\[H_0:z \ge z_0\] \[\left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]

t-Test

Algorithmen (t-Test bei einer Stichprobe)