アルゴリズム (K-means法クラスター分析)

K-means法クラスター分析は最小二乗和を利用して観測グループに分類します。

欠損値がある観測データはK-means法クラスター分析を行う前に除外されます。

変数個の観測点を持つ行列の場合、初期のクラスター中心はKxp行列により特定されるか、行列から既に定義されていたクラスター数より選ばれます。

もし観測点とそれに最も近いクラスター中心の距離が2つの直近のクラスター中心(クラスターiとクラスター)よりも離れている場合、その観測点がクラスターiまたはのうち、より近い方のクラスター中心を置き換えることになります。
そうでないとき、もし観測点と2番目に近いクラスター中心の距離が2つの直近のクラスター中心(クラスターiとクラスター)よりも離れている場合、観測点は最も近いクラスター中心を置き換えることになります。
各観測値は最も近くにあるクラスターに分類され、その観測点とクラスター間の距離はその2点間のユークリッド距離で計算されています。
i 番目の観測点が番目のクラスターに置かれた場合、その観測点とk番目のクラスター間の距離は\(\bar{d}_{ik}=n_k/(n_k-1)d_{ik}\)のように修正されます。また、その観測点とほかのクラスターとの距離は、\(n_k\ \)\(n_j\ \)がそれぞれ番目とj 番目のクラスターの観測数である場合、\(\bar{d}_{ij}=n_j/(n_j+1)d_{ij}\)のように修正されます。もし観測点とi 番目のクラスター間の修正距離が最小でかつ\(l \ne k\ \)である場合、その観測点はk番目のクラスターではなくi 番目のクラスターにおかれます。
各クラスター中心はそのクラスター内の観測点の平均に更新されます。
クラスター内平方和は次のようになります。
\[\sum_{k=1}^K \sum_{i\in S_k} \sum_{j=1}^{p} (x_{ij}-\bar{x}_{kj})^2\]
ここで、\(S_k\ \)k番目のクラスター内の観測点で、\(\bar{x}_{kj}\ \)k番目のクラスターにあるクラスター中心のj 番目の変数に当たります。
更新されたクラスター中心を使うことでこの手順を繰り返し、各観測点をクラスターに所属させてクラスター中心も更新します。反復は最大反復数に到達するか、2回の連続した反復内でクラスター内二乗和がしきい値よりも小さくなった時に終了します。最後の反復の時に更新されたクラスター中心は最終クラスター中心と呼ばれます。
Originのデフォルト最大反復数は10に設定されています。
i 番目の観測とk番目のクラスター間の距離はユークリッド距離を使用して計算されています。
\[S_k\ \]