確率プロットとQ-Qプロット
データセットが与えられた分布に従うかどうか検定するために確率プロットを使用します。これは、X軸上に観測した累積パーセント、Y軸上に期待累積パーセントを持つグラフを表示します。すべてのデータポイントが参照線に近い場合、データセットは与えられた分布に従うものと結論付けできます。
Q-Q(Quantile-Quantile) プロットは、データセットが与えられた分布に従うかどうかを検定するもう一つの手法です。確率プロットとは異なり、XとY軸上でパーセントの代わりに観測値と期待値を示します。すべてのデータポイントが参照線に近い場合、データセットは与えられた分布に従うものと結論付けできます。
Originでは、4つの分布(正規, 正規対数, 指数, ワイブル, ガンマ)と5つのパーセンタイル近似のプロット手法(Blom, Benard, Hazen, Van der Waerden, Kaplan-Meier)をサポートしています。
目次
確率プロット/Q-Qプロットを作成するには
確率プロット、または、Q-Qプロットを作成するには、
- 1つのY列または複数のY列を入力変数として選択します。
- 確率/Q-Qプロットダイアログを開きます。
- plot_prob Xファンクションダイアログで、グループ化列を選択、グループと変数の配置の設定、プロットを各パネルに分割する列、分布および手法を指定します。
- OKをクリックして確率プロット、または、Q-Qプロットを作成します。
図の通り、このサンプルでは、
- 入力データで選択された2つの列は、複数データをグラフを分離に設定することにより、別々のグラフにプロットされます。
- グループボックスで選択されたグループ化列"country" により、確率プロットを複数のプロットに分割し、同じグラフに重ねて表示します。
- パネルの分割で選択された別のグループ列 "Luxury" により、グラフが2つのレイヤ(NとY)に分割されます。
- 統計結果を含む表がグラフに追加されます。
plot_probXファンクションのダイアログ
|
入力データ |
入力データを指定します。入力変数として複数の列を選択できます。 |
|---|---|
|
グループ |
入力変数を複数のプロットに分割するためのグループ化列を指定します。 |
|
グラフ配置 |
このコントロールは、複数の入力変数とグループを配置し、グラフを複数のパネルとページに分割するために使用されます。
|
|
Xスケール共有 |
同じグラフ上のすべてのレイヤでXスケールを共有するかどうかを指定します。このオプションは、複数のデータで同じグラフ上でレイヤを分離が選択されている場合および、ページの分割で複数グループまたはグループ化列が選択されている場合にのみ使用できます。 |
|
Yスケール共有 |
同じグラフ上のすべてのレイヤでYスケールを共有するかどうかを指定します。このオプションは、複数のデータで同じグラフ上でレイヤを分離が選択されている場合および、ページの分割で複数グループまたはグループ化列が選択されている Q-Q プロットで使用できます。 |
|
分布 |
データの分布の種類を指定します。分布についてのより詳細な情報は、分布セクションを参照してください。
|
|
スコア法 |
パーセンタイル近似のプロット方法を選択します。手法についてのより詳細な情報は、スコア法セクションを参照してください。
|
|
信頼帯 |
確率プロとに信頼帯を出力するか指定します。計算の詳細はアルゴリズムを参照してください。 |
|
信頼水準(%) |
信頼帯が選択されている場合にのみ使用できます。選択した分布の信頼水準を%で指定します。 |
| XY軸の交換 |
X軸とY軸の位置を交換するか指定します。 |
| X最小 X最大 |
自動の値は、X最小 = 1 および X最大 = 99.5です。自動のチェックを外すと、出力の参照線列の最小および最大値を使用します。 X最大が自動の値より大きい場合、X最大のパーセント値p1を計算して、 パーセンタイル列には、デフォルトリストにp1およびp1より大きい値のみ含める必要があります。X最大が自動の値より小さい場合、X最大のパーセント値p2を計算して、 パーセンタイル列には、デフォルトリストにp2およびp2より小さい値のみ含める必要があります。 X最小が自動の値よりも小さい場合、X最小値のパーセンタイル値p1を計算します。p1<1e-5, p1=1e-5の場合、p1よりも大きい最小値10^(-m)を見つけ、パーセンタイル列には p1, 10^(-m), 10^(-m+1), ,,,,1, 2,...が含まれます。 X最大が自動の値よりも大きい場合、X最大値のパーセンタイル値p2を計算します。p2>99.99, p2=99.99の場合、リスト (99.9, 99.99) から2より小さい最大値をみつけ、パーセンタイル列には99, 99.5, 99.9,..p2.が含まれます。 |
|
出力範囲 |
これにより、グラフ用に計算されたデータの保存場所を決定します。 |
|
グラフ出力 |
これにより、結果グラフがどこに保存されるかが決定されます。 |
分布
Originには4つの確率分布とQ-Qプロットが含まれます。 次の表に、密度関数を示します。
| 分布 | 密度関数 p(x) | 範囲 | パラメータ |
|---|---|---|---|
|
正規 |
|
全ての
|
|
|
対数正規 |
|
|
|
|
指数分布 |
|
|
はscaleパラメータです。
|
|
ワイブル |
|
|
|
|
ガンマ |
|
|
|
確率プロット作成の詳細
確率プロットを作成するために、観測されたデータセットを最小から最大にソートします。
,
は観測されたデータセットの総数です。
ソートされた観測値は、X座標は
で、Y座標はスコア法用いて計算された点によってプロット上で示されます。
確率プロットのスケールタイプは、分布により異なります。
| 分布 | Xスケールタイプ | Yスケールタイプ |
|---|---|---|
|
正規分布 |
線形 |
確率 |
|
対数正規 |
Ln |
確率 |
|
指数分布 |
Ln |
二重対数逆数 |
|
ワイブル |
Log10 |
二重対数逆数 |
|
ガンマ |
Log10 |
確率 |
Q-Qプロット作成の詳細
Q-Qプロットを作成するために、観測されたデータセットを最小から最大にソートします。
(
は観測値の総数)
Y値は、使用されるスコア法の逆累積分布関数です。
スコア法
入力データが最小から最大の順に並べられ、ソートされたデータのシリアル番号が以下のいずれかの方法で採点されます。 この表では、
はシリアル番号で、
は欠損なしの入力データの総数です。
| メソッド | プロット位置
|
|---|---|
|
Blom |
|
|
Benard |
|
|
Hazen |
|
|
Van der Waerden |
|
|
Kaplan-Meier |
|
参考文献
- Samuel Kotz , Campbell B. Read , N. Balakrishnan, Brani Vidakovic, 2005.Encyclopedia of statistical sciences., NewYork: John Wiley & Sons, Inc.
- Thode, Henry C. 2002, Testing for Normality, CRC Press



平均は、位置パラメータ
標準偏差は、スケールパラメータです。
は形状パラメータです。

