アルゴリズム(ROC Curve)
ここでは、次の表記が使われます。
\(x_i\,\!\) : ケース i に対する結果スコアをテスト
\(n_{TP}\,\!\) : 真の正の判定数
\(n_{FN}\,\!\) : 偽の負の判定数
\(n_{TN}\,\!\) : 真の負の判定数
\(n_{FP}\,\!\) : 偽の正の判定数
\(n_{-}\,\!\): 負の実際の状態を持つケースの数
\(n_{+}\,\!\): 正の実際の状態を持つケースの数
\(n_{-=j}\,\!\): 結果が~に等しい負のケースの数
\(n_{+>j}\,\!\): : 結果が~より大きい正のケースの数
\(n_{+=j}\,\!\): : 結果が~に等しい正のケースの数
\(n_{-<j}\,\!\): : 結果が~より小さい負のケースの数
ROC値
1- 特異性 (X): \(1-\frac{n_{TN}}{n_{TN}+n_{FP}}\,\!\)
敏感度 (Y):\(\frac{n_{TP}}{n_{TP}+n_{FN}}\,\!\)
ROC曲線以下の面積
\(x\,\!\)を検定結果変数の状態値とします。\(x_{-}\,\!\)は、 \(x\,\!\)値が負の実際の状態値で、 \(x_{+}\,\!\)は値が正の実際の状態値です。そして、ROC曲線以下の"true"面積のノンパラメトリック近似性、\(\theta \,\!\) は下記のようになります。
\( A_Z=\frac 1{n_{+}n_{-}}\)\(\sum_{j=1}^{n_{-}}\sum _{i=1}^{n_{+}}\Psi (x_{+},x_{-})\)
ここで\(n_{+}\,\!\)は、 \(D\,\!\)+のサンプルサイズ、 \(n_{+}\,\!\)!は、 \(D\,\!\)-のサンプルサイズで、以下のようになります。
\(\Psi (x_{+},x_{-})=\,\!\) \( \begin{cases} 1, & \mbox{if }x_{+}>x_{-} \\ 0.5, & \mbox{if }x_{+}=x_{-} \\ 0, & \mbox{if }x_{+}<x_{-} \end{cases}\)
\(A_z\,\!\)は、ROC曲線以下の観測された面積で、このROC曲線は、連続したポイントを台形法などにより直線で接続したものです。
\(A_z\,\!\)を計算する別の方法は、以下のようになります。
\[A_Z=\frac 1{n_{+}+n_{-}}\sum \left\{ n_{-=j}n_{+>j}+\frac{n_{-=j}n_{+=j}}2\right\} \]
ROC曲線以下の面積のSE
\(A_z\,\!\)の標準偏差は、次の式で計算できます。
\[SE(A_Z)=\sqrt{\frac{A_Z(1-A_Z)+(n_{+}-1)(Q_1-A_Z^2)+(n_{-}-1)(Q_2-A_Z^2)}{n_{+}n_{-}}} \,\!\]
ここで
\[Q_{1=\frac 1{n_{-}n_{+}^2}}\sum n\__{=j}[n_{+>j}^2+n_{+>j}n_{+=j}+\frac{n_{+>j}^2}3] \,\!\]
および
\[Q_{2=\frac 1{n_{-}^2n_{+}}}\sum n_{+=j}[n_{->j}^2+n_{->j}n_{-=j}+\frac{n_{-=j}^2}3] \,\!\]
ROC曲線以下の面積の漸近の信頼区間
ROC曲線以下の真の面積に対する2方向の漸近の信頼区間\(c\%=(100-\alpha )\%\,\!\)は
\[A_Z\pm SE(A_Z)\,\!\]
帰無仮説における漸近のP値は、\[ \theta=0.5\ \,\!\]であるのに対し、 対立仮説は\( \theta \neq 0.5\ \,\!\)
\(A_z\,\!\)は、 \( \theta=0.5\ \,\!\)であるような帰無仮説において漸近的に標準なので、 \( \theta=0.5\ \,\!\)であるような帰無仮説の漸近のP値を計算できます。それに対し、対立仮説は\( \theta \neq 0.5\ \,\!\)
\[P\left( \left| Z\right| >\left| \frac{A_Z-0.5}{SD(A_Z)|_{\theta =0.5}}\right| \right) =2P\left( Z>\left| \frac{A_Z-0.5}{SD(A_Z)\mid _{\theta =0.5}}\right| \right) \]
ノンパラメトリックな場合において、
\[SD(A_Z)|_{\theta =0.5}=\sqrt{\frac{\theta (1-\theta )+(n_{+}-1)(Q_1-\theta ^2)+(n_{-}-1)(Q_2-\theta ^2)}{n_{+}n_{-}}}|_{\theta =0.5}\,\!\]
\[=\sqrt{\frac{0.5(1-0.5)+(n_{+}-1)(\frac 13-0.5^2)+(n_{-}-1)(\frac 13-0.5^2)}{n_{+}n_{-}}} \]
最適なカットポイント値
カットポイント値は、これら2つの量の等価性の最大化(SpEqualSe)によって定義されます。これは、ROC曲線のmin(abs(1-x-y))です。