アルゴリズム (クロス集計)

クロス集計の手法

度数カウント
周辺とセル
カイ二乗検定表
フィッシャーの正確確率検定 (2 x 2のみ)
関連性の尺度
一致性の尺度
オッズ比と相対危険度 (2 x 2のみ)
Cochran-Mantel-Haenszel

度数カウント

定義

$X_i$ は昇順の行変数の明確な値で、たとえば、 $X_1 < X_2 < \cdots X_R$

$Y_i$ は昇順の列変数の明確な値で、たとえば、 $Y_1 < Y_2 < \cdots Y_C$

$f_{ij}$ はセル $(i,j)$ についての度数

$r_i = \sum_{j=1}^{C}f_{ij}$ は $i$ 番目の行の小計

$c_j = \sum_{i=1}^{R}f_{ij}$ は $j$ 番目の列の小計

$N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i$ は総計

周辺とセル

統計	式および説明
度数	$f_{ij}$
期待度数	$E_{ij} = \frac{r_i c_j}{N}$
行パーセント	$100*\frac{f_{ij}}{r_i}$
列パーセント	$100*\frac{f_{ij}}{c_j}$
合計パーセント	$100*\frac{f_{ij}}{N}$
残差	$R_{ij} = f_{ij} - E_{ij}$
標準化残差	$StdR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}}}$
調整済み残差	$AdjR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}\left(1-\frac{r_i}{N}\right)\left(1-\frac{c_j}{N}\right)}}$

カイ二乗統計

統計	式および説明	自由度
ピアソンのカイ二乗	$\chi_p^2 = \sum_{ij} \frac{(f_{ij}-E_{ij})^2}{E_{ij}}$	$(R-1)(C-1)$
尤度比	$\chi_{LR}^2 = -2\sum_{ij} f_{ij} \ln (E_{ij}/f_{ij})$	$(R-1)(C-1)$
線形関連	$\chi_{LA}^2 = (N-1)r^2$ , ここで $r$ はピアソンの相関係数	$1$
連続補正	$\chi_C^2 = \frac{N(\|f_{11}f_{22}-f_{12}f_{21}\|-0.5N)^2}{r_1r_2c_1c_2} I(\|f_{11}f_{22}-f_{12}f_{21}\|>0.5N)$ , これは 2 x 2 表でのみ計算	$1$

フィッシャーの正確確率検定

この検定は、期待セル度数が低い(5よりも低い)とき便利です。2 x 2 表でのみ計算されます。次のような表を考えます。

	$X_1$	$X_2$	小計/合計
$Y_1$	$n_1$	$n_3$	$n_1+n_3$
$Y_2$	$n_2$	$n_4$	$n_2+n_4$
小計/合計	$n_1+n_2$	$n_3+n_4$	$N$

帰無仮説(独立)下で、最初のセル $N_1$ の度数は、以下で与えられる確率の超幾何分布です。

$Pr(N_1=n_1) = \frac{(n_1+n_2)!(n_3+n_4)!(n_1+n_3)!(n_2+n_4)!}{N!n_1!n_2!n_3!n_4!}$ , $\max(0,n_1-n_4)\leq N_1 \leq \min(n_1+n_2,n_1+n_3)$ .

片側検定

片側検定の有意水準は以下で計算されます。

p(左片側検定) = $Pr(N_1\leq n_1)$

p(右片側検定) = $Pr(N_1\geq n_1)$

両側

両側の有意性は

$p_2 = p_1 + p_3$

ここで

$n_{1}\leq (n_{1}+n_{2})(n_{1}+n_{3})/N$ の場合 $p_{1}= Pr(N_1\leq n_1)$

$n_{1}>(n_{1}+n_{2})(n_{1}+n_{3})/N$ の場合 $p_{1}= Pr(N_1\geq n_1)$

$p_3 = \sum_{x:\text{ between }\min(n_1+n_2,n_1+n_3) \text{ and } (n_1+1); Pr(N_1=x) \leq Pr(N_1=n_1)} Pr(N_1=x)$

関連性の尺度

定義

$D_r = N^2 - \sum_{i=1}^{R}r_i^2$

$D_c = N^2 - \sum_{j=1}^{C}c_j^2$

$C_{ij} = \sum_{h<i}\sum_{k<j}f_{hk}+\sum_{h>i}\sum_{k>j}f_{hk}$

$D_{ij} = \sum_{h<i}\sum_{k>j}f_{hk}+\sum_{h>i}\sum_{k<j}f_{hk}$

$P = \sum_{ij}f_{ij}C_{ij}$

$Q = \sum_{ij}f_{ij}D_{ij}$

$r_i = \sum_{j=1}^{C}f_{ij}$ は $i$ 番目の行の小計

$c_j = \sum_{i=1}^{R}f_{ij}$ は $j$ 番目の列の小計

$N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i$ は総計

統計		式および説明	標準誤差
Phi 係数		$\phi = \sqrt{\chi_p^2/N}$ , これは 2 x 2 表でないとき計算。2 x 2 表の場合 $r$ に等しい。 $[0,M]$ からの値の範囲, ここで $M = min(\sqrt{R-1},\sqrt{C-1})$
クラメールのV		$V = \sqrt{\frac{\chi_p^2}{N\min\{R,C\}}}$
C係数		$CC = \sqrt{\frac{\chi_p^2}{\chi_p^2+N}}$
ガンマ		$\gamma = \frac{P-Q}{P+Q}$	$\frac{2}{P+Q}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
ケンドール	タウb	$\tau_b = \frac{P-Q}{\sqrt{D_rD_c}}$	$2\sqrt{\frac{1}{D_rD_c}\left[\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2\right]}$
ケンドール	タウc	$\tau_c = \frac{(P-Q)q}{N^2(q-1)}$ , ここで $q = \min\{R,C\}$	$\frac{2q}{N^2(q-1)}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
SomersのD	C $\|$ R	$d_{C\|R} = \frac{P-Q}{D_r}$	$\frac{2}{D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
	R $\|$ C	$d_{R\|C} = \frac{P-Q}{D_c}$	$\frac{2}{D_c}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
	対称	$d = 2\frac{P-Q}{D_c+D_r}$	$\frac{4}{D_c+D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
ラムダ	C $\|$ R	$\lambda_{C\|R} = \frac{1}{N-c_m}\left(\sum_{i=1}^{R}f_{im}-c_m\right)$ , ここで $f_{im}$ はi番目の行で最も大きな度数、 $c_m$ は最も大きな列小計	$\sqrt{ \frac{ N - \displaystyle\sum_{i=1}^{R} f_{im} }{ (N-c_m)^3 } \left(\sum_{i=1}^{R} f_{im} + c_m -2\sum_{i=1}^{R} (f_{im}\|l_i=l) \right) }$ , ここで $l_i$ は $f_{im}$ の列インデックス、 $l$ は $c_m$ の列小計のインデックス
	R $\|$ C	$\lambda_{R\|C} = \frac{1}{N-r_m}\left(\sum_{j=1}^{C}f_{mj}-r_m\right)$ , ここで $f_{mj}$ はj番目の列で最も大きな度数、 $r_m$ は最も大きな行小計	$\sqrt{ \frac{ N - \displaystyle\sum_{j=1}^{C} f_{mj} }{ (N-r_m)^3 } \left(\sum_{j=1}^{C} f_{mj} + r_m -2\sum_{j=1}^{C} (f_{mj}\|k_j=k) \right) }$ , ここで $k_j$ は $f_{mj}$ の行インデックス、 $k$ は $r_m$ の行小計のインデックス
	対称	$\lambda = \frac { \displaystyle \sum_{i=1}^{R}f_{im} + \sum_{j=1}^{C}f_{mj} - c_m - r_m }{2N-r_m-c_m}$	$\frac{1}{w^2} \sqrt{ wvy - 2w^2\left( N-\sum_{i=1}^{R} (f_{im}\|i=k_{l_i}) \right) - 2v^2(N-f_{kl}) }$ ここで $w=2N-r_m-c_m$ , $v = 2N - \sum_{i=1}^{R}f_{im} - \sum_{j=1}^{C}f_{mj}$ , $x = \sum_{i=1}^R (f_{im}\|l_i=l) + \sum_{j=1}^C (f_{mj}\|k_j=k) + f_{km} + f_{ml}$ , および $y = 8N - w - v - 2x$
不確実性	C $\|$ R	$U_{R\|C} = \frac{U(X)+U(Y)-U(XY)}{U(Y)}$ , ここで $U(X) = -\sum_{i=1}^{R}\frac{r_i}{N}\ln\frac{r_i}{N}$ , および $U(Y) = -\sum_{j=1}^{C}\frac{c_j}{N}\ln\frac{c_j}{N}$ , および $U(XY) = -\sum_{ij}\frac{f_{ij}}{N}\ln\frac{f_{ij}}{N}$	$\frac{1}{NU(Y)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}$ , ここで $P = \sum_{ij}f_{ij}\ln\left(\frac{r_ic_j}{f_{ij}N}\right)^2$
	R $\|$ C	$U_{C\|R} = \frac{U(X)+U(Y)-U(XY)}{U(X)}$	$\frac{1}{NU(X)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}$
	対称	$U = 2\frac{U(X)+U(Y)-U(XY)}{U(X)+U(Y)}$	$\frac{2}{N(U(X)+U(Y))}\sqrt{P-\frac{1}{N}\left(U(X)+U(Y)-U(XY)\right)^2}$

一致性の尺度

この表は(1) $R=C$ であるような正方形の表かつ、(2)行変数と列変数が同じ値を持つときに計算されます。

カッパ統計は次式で計算されます。

$\kappa = \frac{N\sum_{i=1}^{R}f_{ii} - \sum_{i=1}^{R}r_ic_i}{N^2 - \sum_{i=1}^{R}r_ic_i}$

昇順誤差は以下で推定されます。

$SE_1 = \frac{1}{1-p_e} \sqrt{ \frac{A+B-C}{N} }$ .

ここで $p_e = \frac{ \sum_{i=1}^R r_i c_i }{ N^2 }$ , $A = \sum_{i=1}^R \frac{f_{ii}}{N} \left( 1-\frac{(r_i+c_i)(1- \kappa)}{N} \right)^2$ ,
$B = (1-\kappa)^2 \sum_{i=1}^R \sum_{j=1, j \ne i}^{C} \frac{f_{ij} (r_i+c_j)^2}{N^3}$ および $C = \Bigl( \kappa - p_e( 1-\kappa ) \Bigr)^2$

帰無仮説 $\kappa = 0$ 下の対応する漸近的標準誤差は以下で与えられます。

$SE_0 = \sqrt{\frac{1}{N\left(N^2 - \sum_{i=1}^{R}r_ic_i\right)^2} \left[N^2\sum_{i=1}^{R}r_ic_i + \left(\sum_{i=1}^{R}r_ic_i\right)^2 - N \sum_{i=1}^{R}r_ic_i(r_i+c_i)\right]}$

他の関連する統計はBowkerで、これは全ての対の検定 $H_0: p_{ij} = p_{ji}$ に使用されます。 $R>2$ の場合以下のように計算されます。

$Bo = \sum_{i=1}^R \sum_{j=1}^{j<i}\frac{(f_{ij}-f_{ji})^2}{f_{ij}+f_{ji}}$

大きなサンプルでは、 $Bo$ は自由度 $0.5R(R-1)$ の漸近的なカイ二乗分布です。

2 x 2 表ではBowker'の検定はMcNemarの検定に等しくなります。そのためBowkerの検定のみ提供します。

オッズ比と相対危険度

これらは、2 x 2 表でのみ計算されます。

オッズ比

オッズ比は以下のように計算されます。

$OR = \frac{f_{11}f_{22}}{f_{12}f_{21}}$

相対危険度

相対危険度は以下のように与えられます。

$P(Y_1|X_1)/P(Y_1|X_2) = \frac{f_{11}(f_{21}+f_{22})}{f_{21}(f_{11}+f_{12})}$

$P(Y_1|X_2)/P(Y_1|X_1) = \frac{f_{21}(f_{11}+f_{12})}{f_{11}(f_{21}+f_{22})}$

$P(Y_2|X_1)/P(Y_2|X_2) = \frac{f_{12}(f_{21}+f_{22})}{f_{22}(f_{12}+f_{11})}$

$P(Y_2|X_2)/P(Y_2|X_1) = \frac{f_{22}(f_{12}+f_{11})}{f_{12}(f_{21}+f_{22})}$

Cochran-Mantel-Haenszel

定義

$K$ はレイヤの数

$f_{ijk}$ はi番目の行、j番目の列、k番目のレイヤの行の頻度

$c_{jk} = \sum_{i=1}^{R} f_{ijk}$ はj番目の列、k番目のレイヤ小計

$r_{ik} = \sum_{j=1}^{C} f_{ijk}$ はi番目の行、k番目のレイヤの小計

$n_{k} = \sum_{i=1}^{R}\sum_{j=1}^{C} f_{ijk}$ はk番目のレイヤ小計

$E_{ijk} = \frac{r_{ik}c_{jk}}{n_k}$ はi番目の行、j番目の列、k番目のセルの行の推定された頻度

$\hat{p}_{ik} = \frac{f_{i1k}}{r_{ik}}, d_k = \hat{p}_{1k} - \hat{p}_{2k}, \hat{p}_{k} = \frac{c_{1k}}{n_{k}}$

Mantel-Haenszel 統計

Mantel-Haenszel統計は次式で計算されます。

$MH = \left(\sum_{k=1}^{K}\frac{r_{1k}r_{2k}}{n_k-1} \hat{p}_{k}(1-\hat{p}_{k}) \right)^{-1/2}\left(\big|\sum_{k=1}^{K} (f_{11k}-E_{11k})\big|-0.5\right)sgn\left(\sum_{k=1}^{K} (f_{11k}-E_{11k})\right)$

sgn は符号関数 $sgn(x) = I(x>0)-I(x<0)+0*I(x=0)$ です。

Breslow-Day 統計

Breslow-Day 統計は、

$BD = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2$

ここで $V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}$ です。

タローンの統計

タローンの統計は、

$T = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2- \frac{\sum_{k=1}^{K}\left[f_{11k}-\hat{f}_{11k}\right]^2}{\sum_{k=1}^{K}\frac {1}{V_k} }$

ここで $V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}$ です。

共通オッズ比

2×2×K 表の場合、k番目のレイヤのオッズ比は $OR_{k}$ です。共通オッズ比が存在すると仮定、つまり $OR_{1}=OR_{2}=...OR_{K}$ とすると、共通オッズ比のMantel-Haenszelの推定子は、

$\hat OR_{MH}=\frac{\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}{\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}$

$ln(\hat OR_{MH})$ の漸近的分散は、

$\hat Var[ln(\hat OR_{MH})]=\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{12k} f_{21k}+(f_{12k}+f_{21k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{12k}+f_{21k})f_{12k} f_{21k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}$

$ln(\hat OR_{MH})$ の下側信頼限界(LCL)と上側信頼限界(UCL)は、

$ln(\hat OR_{MH})-z({alpha}/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}$ および $ln(\hat OR_{MH})+z(alpha/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}$

アルゴリズム (クロス集計)

目次

クロス集計の手法

度数カウント

周辺とセル

カイ二乗統計

フィッシャーの正確確率検定

片側検定

両側

関連性の尺度

一致性の尺度

オッズ比と相対危険度

オッズ比

相対危険度

Cochran-Mantel-Haenszel

Mantel-Haenszel 統計

Breslow-Day 統計

タローンの統計

共通オッズ比