Wahrscheinlichkeitsdiagramm und Q-Q-Diagramm

Das Wahrscheinlichkeitsdiagramm wird verwendet, um zu testen, ob ein Datensatz einer gegebenen Verteilung folgt. Allgemein gesagt zeigt es ein Diagramm mit beobachtetem kumulativen Prozentanteil auf der X-Achse und erwartetem kumulativen Prozentanteil auf der Y-Achse. Wenn alle Punkte nah an der Referenzlinie liegen, kann davon gesprochen werden, dass der Datensatz der gegebenen Verteilung folgt.

Das Q-Q-(Quantile-Quantile)-Diagramm ist eine weitere grafische Methode, um zu testen, ob ein Datensatz einer gegebenen Verteilung folgt. Es unterscheidet sich von dem Wahrscheinlichkeitsdiagramm darin, dass es die beobachteten und erwarteten Werte anstatt der Prozentsätze auf der X- und Y-Achse zeigt. Wenn alle Punkte nah an der Referenzlinie liegen, kann davon gesprochen werden, dass der Datensatz der gegebenen Verteilung folgt.

Origin unterstützt fünf gegebene Verteilungen (Normal, Lognormal, Exponentiell, Weibull und Gamma) und fünf Methoden zum Zeichnen von Perzentilapproximationen (Blom, Benard, Hazen, Van der Waerden und Kaplan-Meier).

Inhalt

1 Wahrscheinlichkeitsdiagramm oder Q-Q-Diagramm erstellen
2 Der Dialog der X-Funktion plot_prob
3 Verteilungen
4 Einzelheiten zum Erzeugen eines Wahrscheinlichkeitsdiagramms
5 Einzelheiten zum Erzeugen eines Q-Q-Diagramms
6 Score-Methoden
7 Referenz

Wahrscheinlichkeitsdiagramm oder Q-Q-Diagramm erstellen

Zum Erstellen eines Wahrscheinlichkeits- oder Q-Q-Diagramms:

Markieren Sie eine Y-Spalte oder mehrere Y-Spalten als Eingabevariable(n).
Öffnen Sie den Dialog des Wahrscheinlichkeits-/Q-Q-Diagramms:

Für ein Wahrscheinlichkeitsdiagramm: Klicken Sie im Hauptmenü von Origin auf Zeichnen > Statistisch: Wahrscheinlichkeitsdiagramm .... Alternativ können Sie auf die Schaltfläche Wahrscheinlichkeitsdiagramm auf der Symbolleiste 2D-Grafiken klicken.

Für ein Q-Q-Diagramm: Klicken Sie im Hauptmenü von Origin auf Zeichnen > Statistisch: Q-Q-Diagramm .... Alternativ können Sie auf die Schaltfläche Q-Q-Diagramm auf der Symbolleiste 2D-Grafiken klicken.
Wählen Sie im Dialog der X-Funktion plot_prob die Gruppierungsspalte(n), legen Sie die Anordnung der Gruppen und Variablen fest, wählen Sie eine Spalte, um die Zeichnung in Felder aufzuteilen, legen Sie die Verteilung und Methode fest.
Klicken Sie auf die Schaltfläche OK, um ein Wahrscheinlichkeits- oder Q-Q-Diagramm zu erstellen.

Wie Sie in diesem Beispiel sehen können,

wurden 2 Spalten, die in Eingabedaten ausgewählt wurden, in separate Grafiken gezeichnet, indem Mehrere Daten auf Separate Grafiken gesetzt wurde.
Die Gruppierungsspalte "country", die im Feld Gruppe ausgewählt wurde, hat das Wahrscheinlichkeitsdiagramm in mehrere in der gleichen Grafik überlagerte Zeichnungen aufgeteilt.
Eine andere Gruppierungsspalte "Luxury", die im Feld Felder teilen nach ausgewählt wurde, hat das Diagramm in zwei Layer (N und Y) aufgeteilt.
Eine Tabelle mit den Statistikergebnissen wurde zur Grafik hinzugefügt.

Der Dialog der X-Funktion plot_prob

Eingabedaten	Legen Sie die Eingabedaten fest. Sie können mehrere Spalten als Eingabevariablen auswählen.
Gruppe	Legen Sie die Gruppierungsspalte(n) fest, um die Eingabevariable(n) in mehrere unterschiedliche Zeichnungen aufzuteilen.
Diagrammanordnung	Die Bedienelemente unter diesem Zweig unterstützen Sie beim Anordnen der Eingabevariablen und Gruppen und teilen die Grafik in mehrere Felder und Seiten auf. Mehrere Datensätze und Mehrere Gruppen: Verwenden Sie diese zwei Optionen, um die Zeichnungen auf diese vier Arten anzuordnen: Alle überlagern: Sowohl Mehrere Datensätze als auch Mehrere Gruppen wählen Auf gleicher Grafik überlagern. Gruppen überlagern, Variablen in verschiedenen Layern: Mehrere Datensätze=Separate Layer, Mehrere Gruppen=Auf gleicher Grafik überlagern Variablen überlagern, Gruppen in verschiedenen Layern: Mehrere Gruppen=Separate Layer, Mehrere Daten=Auf gleicher Grafik überlagern Verschiedene Layer: Sowohl Mehrere Datensätze und Mehrere Gruppen wählen Separate Layer. Felder teilen nach: Wenn dieses Kontrollkästchen aktiviert ist, können Sie eine andere Gruppierungsspalte auswählen, um die Grafiken in mehrere Layer aufzuteilen. Hinweis: Wenn Mehrere Daten und Mehrere Gruppen beide auf Separate Layer gesetzt wurden, sollte die Layerreihenfolge im Ergebnisblatt der Hierarchie von "nach Eingabedaten" →"Felder teilen nach" → "nach Gruppen“ folgen. Seiten teilen nach: Wenn dieses Kontrollkästchen aktiviert wurde, können Sie (eine) Gruppierungsspalte(n) auswählen, um die Eingabedaten zu teilen und Wahrscheinlichkeitsdiagramme auf verschiedenen Diagrammseiten zu erstellen. Jede Seite zeichnet nur die Spalten innerhalb der für die Seite relevanten Gruppe. Die seitenrelevanten Gruppeninformationen werden im Layertitel gezeigt, getrennt durch Komma, falls es mehrere Faktoren gibt. Das Berichtsdiagrammblatt führt alle Seiten auf.
X-Skalierungen teilen	Legen Sie fest, ob X-Skalierungen für alle Layer auf der gleichen Grafik geteilt werden sollen. Diese Option ist nur verfügbar, wenn Separate Layer auf gleicher Grafik unter Mehrere Daten ausgewählt ist und Mehrere Gruppen oder Gruppierungsspalten im Feld Felder teilen nach.
Y-Skalierungen teilen	Legen Sie fest, ob Y-Skalierungen für alle Layer auf der gleichen Grafik geteilt werden sollen. Diese Option ist nur verfügbar, wenn Separate Layer auf gleicher Grafik unter Mehrere Daten ausgewählt ist und Mehrere Gruppen oder Gruppierungsspalten im Feld Felder teilen nach.
Verteilung	Wählen Sie einen Verteilungstyp für Ihre Daten aus. Weitere Informationen zu Verteilungen finden Sie im Abschnitt Verteilungen. Verteilung Es sind 14 Verteilungen verfügbar. Aus Daten schätzen Legen Sie fest, ob die Verteilungsparameter aus den Eingabedaten geschätzt werden sollen. Falls nicht, können Parameter manuell festgelegt werden. Parameter: Das Deaktivieren des Kontrollkästchens Aus Daten schätzen aktiviert die Felder Parameter, in die Sie benutzerdefinierte Werte eingeben können, um die Kurven zu zeichnen. Sie können mehr Einzelheiten über die Verteilungskurven auf der Registerkarte Verteilung im Dialog Details Zeichnung finden.
Score-Methode	Wählen Sie eine Methode zum Zeichnen der Perzentilapproximationen aus. Weitere Informationen zu den Methoden finden Sie im Abschnitt Score-Methoden. Blom Benard Hazen Van der Waerden Kaplan-Meier
Konfidenzband	Legen Sie fest, ob das Konfidenzband im Wahrscheinlichkeitsdiagramm ausgegeben werden soll. Einzelheiten zur Berechnung finden Sie unter Algorithmen.
Konfidenzniveau (%)	Diese Option ist nur verfügbar, wenn Konfidenzband ausgewählt ist. Legen Sie das Konfidenzniveau in Prozent für die gewählte Verteilung fest.
XY-Achsen austauschen	Legen Sie fest, ob die Positionen von X- und Y-Achse ausgetauscht werden soll.
X-Minimum X-Maximum	Automatische Werte sind X-Minimum = 1 und X-Maximum = 99,5. Wenn Auto deaktiviert ist, verwenden Sie die Werte von Minimum und Maximum der Spalte Referenzlinie in der Ausgabe. Wenn das X-Minimum größer ist als der Wert für Auto, berechnen wir den Perzentilwert p1 für das X-Minimum. Die Perzentilspalte sollte nur p1 und die Werte größer als p1 in der Standardliste einschließen. Wenn das X-Minimum größer ist als der automatische Wert, berechnen wir den Perzentilwert p2 für das X-Minimum und die Perzentilspalte sollte in der Standardliste nur p2 einschließen und Werte kleiner als p2. Wenn das X-Minimum kleiner ist als der automatische Wert, berechnen wir den Perzentilwert p1 für das X-Minimum. Falls p1 < 1e-5, p1 = 1e-5, dann finden wir den Wert für das Minimum 10^(-m), der größer ist als p1, und die Perzentilspalte schließt p1, 10^(-m), 10^(-m+1), ,,,,1, 2,... ein. Wenn das X-Minimum größer ist als der automatische Wert, berechnen wir den Perzentilwert p2 für das X-Minimum. Falls p2 > 99,99, p2 = 99,99, dann finden wir den Wert für das Maximum, der kleiner als p2 ist, in der Liste (99,9, 99,99) und die Perzentilspalte schließt 99, 99,5, 99,9, ... p2 ein.
Ausgabebereich	Diese Option bestimmt, wo die für das Diagramm berechneten Daten gespeichert werden.
Diagramme ausgeben	Hier wird festgelegt, wo die Ergebnisdiagramme gespeichert werden.

Verteilungen

Origin umfasst vier Verteilungen für Wahrscheinlichkeits- und Q-Q-Diagramme. Die folgende Tabelle listet ihre Dichtefunktionen auf:

Verteilung	Dichtefunktion p(x)	Bereich	Parameter
Normal	$\frac 1{\sigma \sqrt{2\pi }}\exp \left( -\frac{\left( x-\mu \right) ^2}{2\sigma ^2}\right)$	Alle $x$	$\mu$ , Mittelwert, ist der lokale Parameter $\sigma(>0)$ , Standardabweichung, ist der Skalierungsparameter
Lognormal	$\frac 1{\sigma x\sqrt{2\pi }}\exp \left( -\frac{\left( \ln \left( x\right) -\mu \right) ^2}{2\sigma ^2}\right)$	$x>0$	$\mu$ ist die Form des Skalierungsparameter. $\sigma(>0)$ ist der Skalierungsparameter.
Exponentiell	$\frac 1\sigma \exp \left( -\frac x\sigma \right)$	$x>0$	$\sigma(>0)$ ist der Skalierungsparameter.
Weibull	$\frac c\sigma \left( \frac x\sigma \right) ^{c-1}\exp \left( -\left( \frac x\sigma \right) ^c\right)$	$x>0$	$\sigma(>0)$ ist der Skalierungsparameter . $c(>0)$ ist der Formparameter.
Gamma	$\frac{1}{\Gamma(c)\sigma^c}x^{c -1} exp(-x/\sigma),$	$x>0$	$\sigma(>0)$ ist der Skalierungsparameter . $c(>0)$ ist der Formparameter.

Einzelheiten zum Erzeugen eines Wahrscheinlichkeitsdiagramms

Zum Erstellen eines Wahrscheinlichkeitsdiagramms sortieren Sie zuerst den beobachteten Datensatz vom kleinsten zum größten Wert:

$x[1]\le x[2]\le x[3]\le \cdots \le x[n-1]\le x[n]$ , $n$ ist die Gesamtanzahl der Werte des beobachteten Datensatzes.

Die sortierten beobachteten Werte werden in der Zeichnung durch Punkte dargestellt, deren X-Koordinaten $x[i]\$ sind und deren Y-Koordinaten mit Hilfe der Score-Methode berechnet werden.

Die Skalierungstypen des Wahrscheinlichkeitsdiagramm sind unterschiedlich je nach Verteilung.

Verteilung	X-Skalierungstyp	Y-Skalierungstyp
Normal	Linear	Wahrscheinlichkeit
Lognormal	Ln	Wahrscheinlichkeit
Exponentiell	Ln	Log-Reziprok doppelt
Weibull	Log10	Log-Reziprok doppelt
Gamma	Log10	Wahrscheinlichkeit

Einzelheiten zum Erzeugen eines Q-Q-Diagramms

Zum Erstellen eines Q-Q-Diagramms sortieren Sie zuerst den beobachteten Datensatz vom kleinsten zum größten Wert:

$x[1]\le x[2]\le x[3]\le \cdots \le x[n-1]\le x[n]$ , wobei $n$ die Gesamtanzahl der beobachteten Werte ist.

Die Y-Werte sind die inversen kumulativen Verteilungsfunktionen der verwendeten Score-Methode.

Score-Methoden

Eingabedaten werden von klein zu groß geordnet, und die Seriennummer der sortierten Daten wird dann mit Hilfe einer der Methoden unten bewertet. In dieser Tabelle ist $i$ die Seriennummer und $n$ die Gesamtanzahl der nicht fehlenden Eingabedaten.

Methoden	Zeichnungsposition $method(i,n)$
Blom	$(i-0,375)/(n+0,25)$
Benard	$(i-0,3)/(n+0,4)$
Hazen	$(i-0,5)/n$
Van der Waerden	$i/(n+1)$
Kaplan-Meier	$i/n$

Referenz

Samuel Kotz , Campbell B. Read , N. Balakrishnan, Brani Vidakovic, 2005. Encyclopedia of statistical sciences., NewYork: John Wiley & Sons, Inc.
Thode, Henry C. 2002, Testing for Normality, CRC Press