アルゴリズム (判別分析)

内容

1 グループ内共分散行列の均衡検定
2 正準判別分析
3 マハラノビス距離
4 分類する

判別分析は観測値のグループ所属が分かっているものをさらにグループに振り分け、トレーニングデータとするために使われます。

\(X_t\ \)をn個の観測値とp個の変数を持った\(n_g\)グループに所属しているトレーニングデータとします。\(\bar{x}_j\)はｊグループのサンプル平均の行ベクトルで、\(n_j\ \)はｊグループの観測された個数です。ｊグループのグループ内共分散行列は次のように表示されます。

\[S_j=\frac{1}{n_j-1}\cdot (X_{t}-\bar{x}_j)^T(X_{t}-\bar{x}_j)\]

プールされたグループ内共分散行列は次のようになります。

\[S=\frac{1}{n-n_g}\cdot\sum_{j=1}^{n_g} (X_{t}-\bar{x}_j)^T(X_{t}-\bar{x}_j)\]

欠損値はこのリスト形式で除かれています。つまり、欠損値を一つ以上含んでいる観測は分析から除外されています。

グループ内共分散行列の均衡検定

もしトレーニングデータが多変量正規分布になると仮定されているとき、次の尤度比検定統計Gを使い、グループ内共分散行列の均衡検定を行えます。

\[G=C{(n-n_g) \mathrm{log} |S|-\sum_{j=1}^{n_g} (n_j-1) \mathrm{log} |S_j|}\]

ここで

\[C=1-\frac{2p^2+3p-1}{6(p+1)(n_g-1)}\cdot(\sum_{j=1}^{n_g} \frac{1}{n_j-1} -\frac{1}{n-n_g})\]

大きいｎの値は、Gがおおよそ\(\chi^2\ \)変数と自由度 \(\frac{1}{2}\cdot p(p+1)(n_g-1)\) で分散されていると考えられます。

正準判別分析

正準判別分析はp値において、グループ間の分散がグループ内の分散と違いが最大になる割合の線形結合を探すのに使われます。作成された正準変量はグループ間の分離をするのに使われます。

トレーニングデータから総平均を引いたものをXとし、そのランクをkとします。直交行列QはQR分解(すべての列ランクを行う)またはXからのSVDで計算されます。そして \(Q_X\ \) はｋ列の最初のQになります。\(Q_g\ \)を \(n_g-1\) によってnとし、直交行列によりグループを定義します。ｋｘ \(n_g-1\ \) の行列Vを次のようにします。

\[V=Q_X^TQ_g\]

The SVD of V is:

\[V=U_X \triangle U_g^T\]

ゼロでない行列 \(\triangle\) の対角要素はiの正準係数で、正準変量とは \(\delta_i\ \) i=1,2,...,と \(l=\mathrm{min}(k, n_g)\ \) で関係しています。

グループ内の二乗和行列における固有値は：

\[\lambda_i=\frac{\delta_i^2}{1-\delta_i^2}\]

ウィルクスのラムダ(λ)

i より有意に大きくなる次元数を検定するには

\[\Lambda_i=\prod_{j=i+1}^{l} 1/(1+\lambda_j)\]

自由度\((k-i)(n_g-1-i)\ \)を持った \(\chi^2\ \) 統計が使用されて次のようになります。

\[(n-1-n_g-\frac{1}{2}(k-n_g))\sum_{j=i+1}^{l} \mathrm{log}(1+\lambda_j)\ i=0,1,...,l-1\]

正規化されていない正準係数

正準変量のため行列Bをロードするには\(U_X\ \)から計算されます。正準変量はグループ内分散からプールされた単位を持つようにようにスケールされています。つまり：

\[B^TSB=I\ \]

固有ベクトルの符号はSVDの結果に特有ではありません。つまり、各列のBはー1によってかけることができます。Originは \(RB\ \) 内の各和がプラスになるように正規化しています。RはSのコレスキー因数分解結果です。

定数は次のように計算されます。

\[C_0=-X_mB\ \]

\(X_m\ \) は変数の平均を表す行ベクトルです。

正規化されている正準係数

\[D=S_aB\ \]

\(S_a\ \) は対角行列で対角要素はグループ内の共分散行列Sの対角要素の平方根を取ったものになります。

正準構造行列

\[C=S_a^{-1}SB\ \]

正準グループ平均

\[M_j=C_0+\bar{x}_jB\ \]

\(M_j\ \)と \(\bar{x}_j\ \) は順に正準グループ平均とｊ番目のグループ平均の行ベクトルとなっています。

正準判別関数のスコア

\[A_i=C_0+X_iB\ \]

\(A_i\ \) はi番目の観測、 \(X_i\ \) 、の正準スコアです。

i 番目の観測はトレーニングデータでもテストデータでも構いません。

マハラノビス距離

マハラノビス距離は観測点とグループ間の距離を測ります。これには2種類の形があります。j 番目のグループと観測点 \(x_i\ \) の距離は次のようになります。

グループ内共分散行列を使う

\[D_{ij}^2=(x_i-\bar{x}_j)S_j^{-1}(x_i-\bar{x}_j)^T\]

プールされたグループ内共分散行列を使う

\[D_{ij}^2=(x_i-\bar{x}_j)S^{-1}(x_i-\bar{x}_j)^T\]

アルゴリズム (判別分析)

内容

グループ内共分散行列の均衡検定

正準判別分析

マハラノビス距離

分類

事前確率

事後確率

異型性インデックス

線形判別関数係数

トレーニングデータを分類する

トレーニングデータをクロス検証する

テストデータを分類する