Algorithmen (Verteilungsanpassung)

Inhalt

1 Verteilungen und Maximum-Likelihood-Schätzung (MLE)
2 Anpassungsgüte
3 Mittelwerttest
- 3.1 z-Test
- 3.2 t-Test

Verwenden Sie die Verteilungsanpassung, um eine Verteilung an eine Variable anzupassen.

Es gibt sieben Verteilungen, die verwendet werden können, um eine gegebene Variable anzupassen. Die Maximum-Likelihood-Schätzung (MLE) wird als Parameterschätzer berechnet. Für einige stetige Verteilungen wird nicht nur die Konfidenzgrenze angegeben, sondern auch der Test der Anpassungsgüte angeboten.

Verteilungen und Maximum-Likelihood-Schätzung (MLE)

Normalverteilung

PDF

\[\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]\]

wobei $-\infty <x, \mu<\infty$ und $0 < \sigma$. Mit $E(X)=\mu$ und $Var(X)=\sigma^2$.

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{\mu} = \bar{X}_n\]
$\hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}$.

Konfidenzintervalle

Das Konfidenzintervall für $\mu$ und $\sigma$ ist:

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]\]

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei $z$ der kritische Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt. $\hat{\mu}_{se}$ ist der Standardfehler für $\mu$ und $\hat{\sigma}_{se}$ für $\sigma$.

LogNormal-Verteilung

PDF

$\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]$,

wobei$0 \leq x, -\infty < \mu < \infty$ und $ 0 < \sigma$. Mit $E(X)=exp(\mu + \sigma^2/2)$ und $Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )$.

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{\mu} = ln\left(\bar{X}_n \right)\]
$\hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right)$.

Konfidenzintervall

Das Konfidenzintervall für $\mu$ und $\sigma$ ist:

\[\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]\]

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei $z$ den kritischen Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt. $\hat{\mu}_{se}$ ist der Standardfehler für $\mu$ und $\hat{\sigma}_{se}$ für $\sigma$.

Weibull-Verteilung

PDF

\[\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],\]

wobei $\alpha , \beta > 0$. Mit $E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)$ und $Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}$.

Maximum-Likelihood-Schätzung (MLE)

Origin ruft eine NAG-Funktion nag_estim_weibull (g07bec) für die MLE der Statistikwerte der Weibull-Verteilung auf. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Exponential-Verteilung

PDF

$\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]$,

wobei $0 \leq x, -\infty < \mu < \infty$ und $ 0 < \sigma$. Mit $E(X)=\sigma$ und $Var(X)=\sigma^2$.

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{\sigma} = \bar{X}_n\]

Konfidenzintervall

Das Konfidenzintervall für $\sigma$ ist:

\[\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]\]

wobei $z$ den kritischen Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt. $\hat{\sigma}_{se}$ ist der Standardfehler für $\sigma$.

Gamma-Verteilung

PDF

\[\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),\]

wobei $\alpha , \sigma > 0$. Mit $E(X)=\alpha \sigma$ und $Var(X)=\alpha \sigma ^2$.

Maximum-Likelihood-Schätzung (MLE)

Parameter

Es ist nicht einfach, die MLE von $\alpha$ und $\sigma$ manuell zu berechnen. Mit der Newton-Raphson-Methode jedoch können Sie leicht Ihr Ziel erreichen. Um eine gute Wurzel der Likelihood-Schätzung zu erhalten, muss ein geeigneter Anfangsschätzer zur Verfügung stehen, der gegeben werden kann durch: $\alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).$

Konfidenzintervall

Das Konfidenzintervall für $\alpha$ und $\theta$ ist:

\[\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]\]

\[\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]\]

wobei $z$ den kritischen Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt. $\hat{\alpha}_{se}$ ist der Standardfehler für $\alpha$ und $\hat{\theta}_{se}$ für $\theta$.

Binomial-Verteilung

PDF

\[\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},\]

wobei $0 \leq p \leq 1$ und $x=0,1,2,...,n$. Mit $E(X)=np$ und $Var(X)=np(1-p)$. Gegeben sind eine Anzahl von Erfolgen $x$ und der Stichprobenumfang. $n$

Maximum-Likelihood-Schätzung (MLE)

Parameter

\[\hat{p} = x/n\]

Konfidenzintervall

\[\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]\]

wobei $z$ den kritischen Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt.

Poisson-Verteilung

PDF

\[e^{-\lambda}\frac{{\lambda}^x}{x!},\]

wobei $x=1,2,...,n$. Mit $E(X)=Var(X)=\lambda$.

Maximum-Likelihood-Schätzung (MLE)

Parameter

$\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k$.

Konfidenzintervall

Das Konfidenzintervall für $\lambda$ ist:

\[\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]\]

wobei $z$ den kritischen Wert $0.975$ für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei $95\%$ liegt.

Anpassungsgüte

Kolmogorov-Smirnov

Origin ruft eine NAG-Funktion nag_1_sample_ks_test (g08cbc) auf, um die Statistik zu berechnen. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Kolmogorov-Smirnov (Modifiziert)

Modifizierte Kolmogorov-Smirnov-Statistik

Die modifizierte Kolmogorov-Smirnov-Statistik ist eine Modifikation der Kolmogorov-Smirnov-Statistik basierend auf verschiedenen Verteilungen.

p-Wert

Der p-Wert für die Kolmogorov-Smirnov-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von D zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.

Hier ist $D_n$ die Kolmogorov-Smirnov-Statistik.

Normal-/Lognormal-Verteilung

Modifizierte Kolmogorov-Smirnov-Statistik:

\[D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)\]

Tabelle der kritischen Werte

D	<0,775	0,775	0,819	0,895	0,995	1,035	>1,035
p-Wert	>=0,15	0,15	0,10	0,05	0,025	0,01	<=0,01

Weibull-Verteilung

Modifizierte Kolmogorov-Smirnov-Statistik:

\[D=D_n\sqrt{N}\]

Tabelle der kritischen Werte

D	<1,372	1,372	1,477	1,577	1,671	>1,671
p-Wert	>=0,1	0,1	0,05	0,025	0,01	<=0,01

Exponential-Verteilung

Modifizierte Kolmogorov-Smirnov-Statistik:

\[D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)\]

Tabelle der kritischen Werte

D	<0,926	0,926	0,995	1,094	1,184	1,298	>1,298
p-Wert	>=0,15	0,15	0,10	0,05	0,025	0,01	<=0,01

Gamma-Verteilung

Modifizierte Kolmogorov-Smirnov-Statistik:

\[D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)\]

Tabelle der kritischen Werte

D	<0,74	0,74	0,780	0,800	0,858	0,928	0,990	1,069	1,13	>1,13
p-Wert	>=0,25	0,25	0,20	0,15	0,10	0,05	0,025	0,01	0,005	<=0,005

Anderson-Darling

Anderson-Darling-Statistik

\[z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]\]

wobei

$F$ die kumulative Verteilungsfunktion der festgelegten Verteilung ist.
$Y_i$ die geordneten Datenpunkte sind: $Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n$

p-Wert
Der p-Wert für die Angepasste Anderson-Darling-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von $z^{*}$ zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.

Normal-/Lognormal-Verteilung

Angepasste Anderson-Darling-Statistik

\[z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)\]

p-Wert

\[p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}\]

Weibull-Verteilung

Angepasste Anderson-Darling-Statistik
\[z^{*}=\left(1+\frac{0.2}{N}\right)\]

Tabelle der kritischen Werte

\[z^{*}\]	<0,474	0,474	0,637	0,757	0,877	1,038	>1,038
p-Wert	>=0,25	0,25	0,10	0,05	0,025	0,01	<=0,01

Exponential-Verteilung

Angepasste Anderson-Darling-Statistik
\[z^{*}=z\left(1+\frac{0.6}{N}\right)\]

p-Wert

\[p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\\ 0, z^{*} \geq 10.03 \end{cases}\]

Gamma-Verteilung

Tabelle der kritischen Werte

**\[0 < \alpha \leq 1\]**
\[z\]	<0,486	0,486	0,657	0,786	0,917	1,092	1,227	>1,227
p-Wert	>=0,25	0,25	0,10	0,05	0,025	0,01	0,005	<=0,005

**\[1 < \alpha \leq 8\]**
\[z\]	<0,473	0,473	0,637	0,759	0,883	1,048	1,173	>1,173
p-Wert	>=0,25	0,25	0,10	0,05	0,025	0,01	0,005	<=0,005

**\[\alpha \geq 8\]**
\[z\]	<0,470	0,470	0,631	0,752	0,873	1,035	1,159	>1,159
p-Wert	>=0,25	0,25	0,10	0,05	0,025	0,01	0,005	<=0,005

Mittelwerttest

z-Test

Teststatistik

\[t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]

wobei

\[\bar{x}: \frac{1}{n}\sum_{i=1}^n x_i\]
$\mu_0$: Der festgelegte Testmittelwert
$\sigma$: Die festgelegte Standardabweichung

p-Wert

Das $P$ wird basierend auf einer approximativen Statistik des Tests auf Normalverteilung $Z$ wiedergegeben.

Konfidenzintervalle

Für das festgelegte Signifikanzniveau ist das Konfidenzintervall für den Stichprobenmittelwert:

Nullhypothese	Konfidenzintervall
\[H_0:z=z_0\,\!\]	\[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]
\[H_0:z \le z_0\]	\[\left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]\]
\[H_0:z \ge z_0\]	\[\left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]\]

t-Test

Algorithmen (t-Test bei einer Stichprobe)