アルゴリズム (クロス集計)
目次 |
クロス集計は、分割表とも呼ばれます。この機能は、変数間の関連の存在や強さを確かめるために使用されます。
クロス集計の手法
- 度数カウント
- 周辺とセル
- カイ二乗検定表
- フィッシャーの正確確率検定 (2 x 2のみ)
- 関連性の尺度
- 一致性の尺度
- オッズ比と相対危険度 (2 x 2のみ)
- Cochran-Mantel-Haenszel
度数カウント
定義
- \(X_i\) は昇順の行変数の明確な値で、たとえば、\(X_1 < X_2 < \cdots X_R \)
- \(Y_i\) は昇順の列変数の明確な値で、たとえば、\(Y_1 < Y_2 < \cdots Y_C \)
- \(f_{ij}\) はセル \((i,j)\) についての度数
- \(r_i = \sum_{j=1}^{C}f_{ij}\) は \(i\) 番目の行の小計
- \(c_j = \sum_{i=1}^{R}f_{ij}\) は \(j\) 番目の列の小計
- \(N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i\) は総計
周辺とセル
| 統計 | 式および説明 |
|---|---|
| 度数 | \[f_{ij}\] |
| 期待度数 | \[E_{ij} = \frac{r_i c_j}{N}\] |
| 行パーセント | \[100*\frac{f_{ij}}{r_i}\] |
| 列パーセント | \[100*\frac{f_{ij}}{c_j}\] |
| 合計パーセント | \[100*\frac{f_{ij}}{N}\] |
| 残差 | \[R_{ij} = f_{ij} - E_{ij}\] |
| 標準化残差 | \[StdR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}}}\] |
| 調整済み残差 | \[AdjR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}\left(1-\frac{r_i}{N}\right)\left(1-\frac{c_j}{N}\right)}}\] |
カイ二乗統計
| 統計 | 式および説明 | 自由度 |
|---|---|---|
| ピアソンのカイ二乗 | \[\chi_p^2 = \sum_{ij} \frac{(f_{ij}-E_{ij})^2}{E_{ij}}\] | \[(R-1)(C-1)\] |
| 尤度比 | \[\chi_{LR}^2 = -2\sum_{ij} f_{ij} \ln (E_{ij}/f_{ij})\] | \[(R-1)(C-1)\] |
| 線形関連 | \(\chi_{LA}^2 = (N-1)r^2\), ここで \(r\) はピアソンの相関係数 | \[1\] |
| 連続補正 | \(\chi_C^2 = \frac{N(|f_{11}f_{22}-f_{12}f_{21}|-0.5N)^2}{r_1r_2c_1c_2} I(|f_{11}f_{22}-f_{12}f_{21}|>0.5N)\), これは 2 x 2 表でのみ計算 | \[1\] |
フィッシャーの正確確率検定
この検定は、期待セル度数が低い(5よりも低い)とき便利です。2 x 2 表でのみ計算されます。次のような表を考えます。
| \[X_1\] | \[X_2\] | 小計/合計 | |
|---|---|---|---|
| \[Y_1\] | \[n_1\] | \[n_3\] | \[n_1+n_3\] |
| \[Y_2\] | \[n_2\] | \[n_4\] | \[n_2+n_4\] |
| 小計/合計 | \[n_1+n_2\] | \[n_3+n_4\] | \[N\] |
帰無仮説(独立)下で、最初のセル\(N_1\)の度数は、以下で与えられる確率の超幾何分布です。
\(Pr(N_1=n_1) = \frac{(n_1+n_2)!(n_3+n_4)!(n_1+n_3)!(n_2+n_4)!}{N!n_1!n_2!n_3!n_4!}\), \(\max(0,n_1-n_4)\leq N_1 \leq \min(n_1+n_2,n_1+n_3)\).
片側検定
片側検定の有意水準は以下で計算されます。
- p(左片側検定) =\( Pr(N_1\leq n_1)\)
- p(右片側検定) =\( Pr(N_1\geq n_1)\)
両側
両側の有意性は
\[p_2 = p_1 + p_3\]
ここで
- \(n_{1}\leq (n_{1}+n_{2})(n_{1}+n_{3})/N\) の場合 \(p_{1}= Pr(N_1\leq n_1)\)
- \(n_{1}>(n_{1}+n_{2})(n_{1}+n_{3})/N\) の場合 \(p_{1}= Pr(N_1\geq n_1)\)
- \[p_3 = \sum_{x:\text{ between }\min(n_1+n_2,n_1+n_3) \text{ and } (n_1+1); Pr(N_1=x) \leq Pr(N_1=n_1)} Pr(N_1=x)\]
関連性の尺度
定義
- \[D_r = N^2 - \sum_{i=1}^{R}r_i^2\]
- \[D_c = N^2 - \sum_{j=1}^{C}c_j^2\]
- \[C_{ij} = \sum_{h<i}\sum_{k<j}f_{hk}+\sum_{h>i}\sum_{k>j}f_{hk}\]
- \[D_{ij} = \sum_{h<i}\sum_{k>j}f_{hk}+\sum_{h>i}\sum_{k<j}f_{hk}\]
- \[P = \sum_{ij}f_{ij}C_{ij}\]
- \[Q = \sum_{ij}f_{ij}D_{ij}\]
- \(r_i = \sum_{j=1}^{C}f_{ij}\) は \(i\) 番目の行の小計
- \(c_j = \sum_{i=1}^{R}f_{ij}\) は \(j\) 番目の列の小計
- \(N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i\) は総計
| 統計 | 式および説明 | 標準誤差 | |
|---|---|---|---|
| Phi 係数 | \(\phi = \sqrt{\chi_p^2/N}\), これは 2 x 2 表でないとき計算。2 x 2 表の場合 \(r\) に等しい。
\([0,M]\) からの値の範囲, ここで \(M = min(\sqrt{R-1},\sqrt{C-1})\) |
||
| クラメールのV | \[V = \sqrt{\frac{\chi_p^2}{N\min\{R,C\}}}\] | ||
| C係数 | \[CC = \sqrt{\frac{\chi_p^2}{\chi_p^2+N}}\] | ||
| ガンマ | \[\gamma = \frac{P-Q}{P+Q}\] | \[\frac{2}{P+Q}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}\] | |
| ケンドール | タウb | \[\tau_b = \frac{P-Q}{\sqrt{D_rD_c}}\] | \[2\sqrt{\frac{1}{D_rD_c}\left[\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2\right]}\] |
| タウc | \(\tau_c = \frac{(P-Q)q}{N^2(q-1)}\), ここで \(q = \min\{R,C\}\) | \[\frac{2q}{N^2(q-1)}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}\] | |
| SomersのD | C\(|\)R | \[d_{C|R} = \frac{P-Q}{D_r}\] | \[\frac{2}{D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}\] |
| R\(|\)C | \[d_{R|C} = \frac{P-Q}{D_c}\] | \[\frac{2}{D_c}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}\] | |
| 対称 | \[d = 2\frac{P-Q}{D_c+D_r}\] | \[\frac{4}{D_c+D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}\] | |
| ラムダ | C\(|\)R | \(\lambda_{C|R} = \frac{1}{N-c_m}\left(\sum_{i=1}^{R}f_{im}-c_m\right)\), ここで \(f_{im}\) はi番目の行で最も大きな度数、\(c_m\) は最も大きな列小計 | \(\sqrt{ \frac{ N - \displaystyle\sum_{i=1}^{R} f_{im} }{ (N-c_m)^3 } \left(\sum_{i=1}^{R} f_{im} + c_m -2\sum_{i=1}^{R} (f_{im}|l_i=l) \right) }\), ここで \(l_i\) は \(f_{im}\) の列インデックス、 \(l\) は \(c_m\) の列小計のインデックス |
| R\(|\)C | \(\lambda_{R|C} = \frac{1}{N-r_m}\left(\sum_{j=1}^{C}f_{mj}-r_m\right)\),
ここで \(f_{mj}\) はj番目の列で最も大きな度数、\(r_m\) は最も大きな行小計 |
\(\sqrt{ \frac{ N - \displaystyle\sum_{j=1}^{C} f_{mj} }{ (N-r_m)^3 } \left(\sum_{j=1}^{C} f_{mj} + r_m -2\sum_{j=1}^{C} (f_{mj}|k_j=k) \right) }\), ここで \(k_j\) は \(f_{mj}\) の行インデックス、\(k\) は \(r_m\) の行小計のインデックス |
|
| 対称 | \[\lambda = \frac { \displaystyle \sum_{i=1}^{R}f_{im} + \sum_{j=1}^{C}f_{mj} - c_m - r_m }{2N-r_m-c_m}\] | \(\frac{1}{w^2} \sqrt{ wvy - 2w^2\left( N-\sum_{i=1}^{R} (f_{im}|i=k_{l_i}) \right) - 2v^2(N-f_{kl}) }\) ここで \(w=2N-r_m-c_m\), \(v = 2N - \sum_{i=1}^{R}f_{im} - \sum_{j=1}^{C}f_{mj}\), \(x = \sum_{i=1}^R (f_{im}|l_i=l) + \sum_{j=1}^C (f_{mj}|k_j=k) + f_{km} + f_{ml}\), および \(y = 8N - w - v - 2x\) |
|
| 不確実性 | C\(|\)R | \(U_{R|C} = \frac{U(X)+U(Y)-U(XY)}{U(Y)}\), ここで \(U(X) = -\sum_{i=1}^{R}\frac{r_i}{N}\ln\frac{r_i}{N}\), および \(U(Y) = -\sum_{j=1}^{C}\frac{c_j}{N}\ln\frac{c_j}{N}\), および \(U(XY) = -\sum_{ij}\frac{f_{ij}}{N}\ln\frac{f_{ij}}{N}\) | \(\frac{1}{NU(Y)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}\), ここで \(P = \sum_{ij}f_{ij}\ln\left(\frac{r_ic_j}{f_{ij}N}\right)^2\) |
| R\(|\)C | \[U_{C|R} = \frac{U(X)+U(Y)-U(XY)}{U(X)}\] | \[\frac{1}{NU(X)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}\] | |
| 対称 | \[U = 2\frac{U(X)+U(Y)-U(XY)}{U(X)+U(Y)}\] | \[\frac{2}{N(U(X)+U(Y))}\sqrt{P-\frac{1}{N}\left(U(X)+U(Y)-U(XY)\right)^2}\] | |
一致性の尺度
この表は(1) \(R=C\) であるような正方形の表かつ、(2)行変数と列変数が同じ値を持つときに計算されます。
カッパ統計は次式で計算されます。
- \[ \kappa = \frac{N\sum_{i=1}^{R}f_{ii} - \sum_{i=1}^{R}r_ic_i}{N^2 - \sum_{i=1}^{R}r_ic_i}\]
昇順誤差は以下で推定されます。
- \(SE_1 = \frac{1}{1-p_e} \sqrt{ \frac{A+B-C}{N} }\).
ここで \(p_e = \frac{ \sum_{i=1}^R r_i c_i }{ N^2 }\), \( A = \sum_{i=1}^R \frac{f_{ii}}{N} \left( 1-\frac{(r_i+c_i)(1- \kappa)}{N} \right)^2\),
\(B = (1-\kappa)^2 \sum_{i=1}^R \sum_{j=1, j \ne i}^{C} \frac{f_{ij} (r_i+c_j)^2}{N^3}\) および \(C = \Bigl( \kappa - p_e( 1-\kappa ) \Bigr)^2\)
帰無仮説\(\kappa = 0\)下の対応する漸近的標準誤差は以下で与えられます。
- \[SE_0 = \sqrt{\frac{1}{N\left(N^2 - \sum_{i=1}^{R}r_ic_i\right)^2} \left[N^2\sum_{i=1}^{R}r_ic_i + \left(\sum_{i=1}^{R}r_ic_i\right)^2 - N \sum_{i=1}^{R}r_ic_i(r_i+c_i)\right]}\]
他の関連する統計はBowkerで、これは全ての対の検定\(H_0: p_{ij} = p_{ji}\)に使用されます。\(R>2\) の場合以下のように計算されます。
- \[Bo = \sum_{i=1}^R \sum_{j=1}^{j<i}\frac{(f_{ij}-f_{ji})^2}{f_{ij}+f_{ji}}\]
大きなサンプルでは、\(Bo\) は自由度 \(0.5R(R-1)\) の漸近的なカイ二乗分布です。
2 x 2 表ではBowker'の検定はMcNemarの検定に等しくなります。そのためBowkerの検定のみ提供します。
オッズ比と相対危険度
これらは、2 x 2 表でのみ計算されます。
オッズ比
オッズ比は以下のように計算されます。
\[OR = \frac{f_{11}f_{22}}{f_{12}f_{21}}\]
相対危険度
相対危険度は以下のように与えられます。
- \[P(Y_1|X_1)/P(Y_1|X_2) = \frac{f_{11}(f_{21}+f_{22})}{f_{21}(f_{11}+f_{12})}\]
- \[P(Y_1|X_2)/P(Y_1|X_1) = \frac{f_{21}(f_{11}+f_{12})}{f_{11}(f_{21}+f_{22})}\]
- \[P(Y_2|X_1)/P(Y_2|X_2) = \frac{f_{12}(f_{21}+f_{22})}{f_{22}(f_{12}+f_{11})}\]
- \[P(Y_2|X_2)/P(Y_2|X_1) = \frac{f_{22}(f_{12}+f_{11})}{f_{12}(f_{21}+f_{22})}\]
Cochran-Mantel-Haenszel
定義
- \(K\) はレイヤの数
- \(f_{ijk}\) はi番目の行、j番目の列、k番目のレイヤの行の頻度
- \(c_{jk} = \sum_{i=1}^{R} f_{ijk}\) はj番目の列、k番目のレイヤ小計
- \(r_{ik} = \sum_{j=1}^{C} f_{ijk}\) はi番目の行、k番目のレイヤの小計
- \(n_{k} = \sum_{i=1}^{R}\sum_{j=1}^{C} f_{ijk}\) はk番目のレイヤ小計
- \(E_{ijk} = \frac{r_{ik}c_{jk}}{n_k}\) はi番目の行、j番目の列、k番目のセルの行の推定された頻度
- \[\hat{p}_{ik} = \frac{f_{i1k}}{r_{ik}}, d_k = \hat{p}_{1k} - \hat{p}_{2k}, \hat{p}_{k} = \frac{c_{1k}}{n_{k}}\]
Mantel-Haenszel 統計
Mantel-Haenszel統計は次式で計算されます。
\[MH = \left(\sum_{k=1}^{K}\frac{r_{1k}r_{2k}}{n_k-1} \hat{p}_{k}(1-\hat{p}_{k}) \right)^{-1/2}\left(\big|\sum_{k=1}^{K} (f_{11k}-E_{11k})\big|-0.5\right)sgn\left(\sum_{k=1}^{K} (f_{11k}-E_{11k})\right)\]
sgn は符号関数 \(sgn(x) = I(x>0)-I(x<0)+0*I(x=0)\) です。
Breslow-Day 統計
Breslow-Day 統計は、
\[BD = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2\]
ここで \(V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}\) です。
タローンの統計
タローンの統計は、
- \[T = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2- \frac{\sum_{k=1}^{K}\left[f_{11k}-\hat{f}_{11k}\right]^2}{\sum_{k=1}^{K}\frac {1}{V_k} }\]
ここで \(V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}\) です。
共通オッズ比
2×2×K 表の場合、k番目のレイヤのオッズ比は \(OR_{k}\) です。共通オッズ比が存在すると仮定、つまり \(OR_{1}=OR_{2}=...OR_{K}\) とすると、共通オッズ比のMantel-Haenszelの推定子は、
- \[\hat OR_{MH}=\frac{\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}{\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}\]
\(ln(\hat OR_{MH})\) の漸近的分散は、
- \[\hat Var[ln(\hat OR_{MH})]=\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{12k} f_{21k}+(f_{12k}+f_{21k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{12k}+f_{21k})f_{12k} f_{21k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}\]
\(ln(\hat OR_{MH})\) の下側信頼限界(LCL)と上側信頼限界(UCL)は、
- \(ln(\hat OR_{MH})-z({alpha}/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}\) および \(ln(\hat OR_{MH})+z(alpha/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}\)