Algorithmen (Kolmogorov-Smirnov-Test bei zwei Stichproben)

Die Vorgehensweise unten basiert auf NAG-Algorithmen.

Es werden zwei unabhängige Stichproben betrachtet, X und Y, mit der Größe \(n_1\,\!\) und \(n_2\,\! \). Sie werden als \(x_1,x_2,\ldots ,x_{n_1}\,\!\) bzw. \(y_1,y_2,\ldots ,y_{n_1}\,\!\) bezeichnet. Angenommen, F(x) und G(x) stellen ihre jeweiligen unbekannten Verteilungsfunktionen dar. Weiterhin wird angenommen, dass \( S_1(x)\,\! \) und \( S_2(x)\,\! \) die Stichprobenwerte der empirischen Verteilungsfunktionen bezeichnen.

Die Nullhypothese: F(x)=G(x)

Die Alternativhypothese ist \(H_1\,\!\):F(x)<>G(x), der zugehörige p-Wert ist eine beidseitige Wahrscheinlichkeit;

oder\(H_1\,\!\) :F(x)>G(x), der zugehörige p-Wert ist eine obere Wahrscheinlichkeit,

oder \(H_1\,\!\): F(x)<G(x), der zugehörige p-Wert ist eine untere Wahrscheinlichkeit.

Im ersten Fall von \(H_1\,\!\) stellt die Statistik \(D_{n_1,n_2} \,\!\) die größte absolute Abweichung der zwei empirischen Verteilungsfunktionen dar.

Im zweiten Fall von \(H_1\,\!\) stellt die Statistik \(D_{n_1,n_2}^{+} \,\!\) die größte positive Abweichung zwischen der empirischen Verteilungsfunktion der ersten Stichprobe und der empirischen Verteilungsfunktion der zweiten Stichprobe dar, das heißt \(D_{n_1,n_2}^{+}=\max \{S_1(x)-S_2(x),0\}\,\!\).

Im dritten Fall von \(H_1\,\!\) stellt die Statistik \(D_{n_1,n_2}^{-} \,\!\) die größte positive Abweichung zwischen der empirischen Verteilungsfunktion der zweiten Stichprobe und der empirischen Verteilungsfunktion der ersten Stichprobe dar, das heißt \(D_{n_1,n_2}^{-}=\max \{S_2(x)-S_1(x),0\}\,\!\).

KS-test2 gibt auch die Standardstatistik \(Z=\sqrt{(n_1*n_2)/(n_1+n_2)}*D\,\!\) zurück,

wobei \(D\,\!\) vielleicht \(D_{n_1,n_2}\,\!\),\(D_{n_1,n_2}^{+} \,\!\), \(D_{n_1,n_2}^{-} \,\!\) abhängig von der Wahl der Alternativhypothese.

Die Verteilung der Statistik \(Z\,\!\) konvergiert asymptotisch zu einer Verteilung nach Smirnov, wenn \(n_1\,\!\) und \(n_2\,\!\) steigen. Es wird die Wahrscheinlichkeit berechnet, unter der Nullhypothese einen Wert der Teststatistik zu erhalten, der so extrem ist, wie der beobachtete Wert.

Bei \(max(n_1,n_2)\leq 2500\,\!\) und \(n_1*n_2\leq 10000\,\!\) steht eine genaue Methode nach Kim und Jinrich zur Verfügung. Ansonsten wird \(p\,\!\) berechnet mit Hilfe der von Kim and Jenrich (1973) vorschlagenenen Approximationen.

Beachten Sie, dass die verwendete Methode nur für kontinuierliche theoretische Verteilungen verwendet wird.

Diese Methode berechnet die beidseitige Wahrscheinlichkeit. Die einseitigen Wahrscheinlichkeiten werden mit Hilfe der beidseitigen Wahrscheinlichkeit geschätzt. Dies ist eine gute Schätzung für kleine \(p\,\!\), das heißt \(p\leq 0.10\,\!\), wird aber schwächer für größere \(p\,\!\).

Weitere Einzelheiten zum dem Algorithmus finden Sie unter nag_2_sample_ks_test (g08cdc).