Algorithmus (mwtest)

Betrachten Sie die zwei unabhängigen Beispiele \(F(x)\,\) und \(G(y)\,\) mit der Größe \(n_1\,\!\) und \(n_2\,\! \). Die Beispieldaten werden als \(x_1,x_2,\ldots ,x_{n_1}\,\!\) bzw. \(y_1,y_2,\ldots ,y_{n_1}\,\!\) bezeichnet.

Die Nullhypothese \(H_0: F(x) = G(y)\,\) lautet, dass die zwei Verteilungen gleich sind. Dies wird gegen die Alternativhypothese \(H_1\,\) getestet, die besagt:

\(H_1: F(x) \neq G(y)\,\); oder

\(H_1: F(x) < G(y)\,\!\), die \(x\,\) tendieren dazu, größer zu sein als die \(y\,\); oder

\(H_1: F(x) > G(y)\,\!\), die \(x\,\) tendieren dazu, kleiner zu sein als die \(y\,\).

Das Testverfahren beinhaltet die folgenden Schritte:

Kombinieren Sie \( x_i \,\!\) und \( y_i\,\!\) in einer Gruppe.
Ordnen Sie die Ränge in aufsteigender Ordnung. Verbindungen erhalten den Durchschnitt ihrer Ränge. Angenommen \(r_{1i}\,\!\) sind die Ränge, die\( x_i \,\!\) zugewiesen sind, für \( i=1,2,\ldots ,n_1\), und die Ränge, die \( y_i\,\!\) zugewiesen sind, für \( j=1,2,\ldots ,n_2\).
Berechnen Sie die Summe der Ränge:

\( S_1=\sum_{I=1}^{n_1}r_{1i}\,\!\), und \( S_2=\sum_{I=1}^{n_2}r_{2j}\,\!\)
Die Teststatistik \(U\,\) wird folgendermaßen definiert:

\[ U=S_1-\frac{n_1(n_1+1)}2\,\]
Die approximative Teststatistik der Normalverteilung \(z\,\) wird berechnet wie folgt:

\[z=\frac{U-M(U)\pm \frac 12}{\sqrt{Var(U)}} \,\]

wobei

\[M(U)=\frac{n_1n_2}2 \,\]

und

\[Var(U)=\frac{n_1n_2(n_1+n_2+1)}{12}-\frac{n_1n_2}{(n_1+n_2)(n_1+n_2-1)}\times TS \,\]

wobei

\(TS=\sum_{j=1}^\tau \frac{(t_j)(t_j-1)(t_j+1)}{12}\,\) sein wird.

\( \tau \,\) ist die Anzahl der Verbindungen in der Stichprobe und \( t_j\,\) die Anzahl der Verbindungen in der j-ten Gruppe.
Beachten Sie, dass, sollte es keine Verbindungen geben, die Varianz von \(U \,\) reduziert wird auf \(\frac{n_1n_2(n_1+n_2+1)}{12}\,\)

Weitere Einzelheiten zu dem Algorithmus finden Sie unter nag_mann_whitney (g08amc).