クラスター分析

内容

1 目的
2 階層的クラスター分析
3 K-means法クラスター分析
- 3.1 クラスター手法を選ぶ
4 欠損値の扱い

クラスター分析は大きいデータを小さいグループ(クラスター)に分けるのによく使われる手法です。判別分析と同じように、クラスター分析は観測データを分類することを重要な課題としています。ところが判別分析はグループメンバーシップが分かっている状態でのみ分類のルールを生成します。クラスター分析はより初歩的な手法でグループの数またはグループメンバーシップについての仮定は何も持っていません。

目的

分類
クラスター分析はユーザの方に関係性の示唆をしたり、大きい数の変数や観測値がある中で系統的構造を作成する手段を提供しています。

階層的クラスター分析

階層的クラスター分析は、測定された特徴について比較的均一的なクラスターを見つける統計的な第一手法です。まず、それぞれの特徴が別々のクラスターに分類され、順次クラスター同士が統合していきます。各段階でクラスターの数を減らしていき、最終的に1つのクラスターが残るまで行われます。クラスター手法としては相違点、あるいはクラスターを形成する際の距離を使用しています。

観測値を分類する

階層的クラスター分析は小さい数のサンプルに適しています。もしサンプル(n)が大きい場合、結果にたどり着くまでのアルゴリズムがとても遅くなるかもしれません。通常、サンプルサイズが200より大きくなる場合、K-means法クラスター分析を使用することをお勧めします。

変数を分類する

階層的クラスター分析は均一的な変数のグループがいかに形成されたのかを見ることができる唯一の手法になります。K-means法クラスター分析は観測値を分類することしかできません。

クラスター手法を選ぶ

クラスターの数

分析にいくつのクラスターを設定すればいいのか、ということに対して決まった方法はありません。一度樹形図とクラスターの特徴を確認して、それからクラスターの数を反復しながら調整していく必要があるかもしれません。

変数の標準化

もし変数が別々のスケール(目盛り)で計測されていた場合、3つの方法のうち1つを使い変数を標準化することができます。全てのこの結果は距離の計測により等しい割合で貢献していますが、変数内の違いに関する情報が失われる可能性もあります。

距離の測定

ユークリッド距離
ユークリッド距離は最も一般的な距離の測定方法で、これは多次元空間の幾何学的距離を表しています。この方法は連続変数にのみ使用できます。

平方ユークリッド距離
平方ユークリッド距離はより離れたオブジェクト間の距離に重点を置いています。

city-block 距離
このcity-block距離とユークリッド距離はどちらもミンコフスキー計量の特殊な事例です。ユークリッド距離が2点間の最短距離を表しているならば、city-block距離は各次元における距離の合計になります。

Notes:データが正規化された場合、ユークリッドと平方ユークリッド距離は両方とも影響されます。分析の途中でデータを正規化したい場合、city-block距離をお使いください。

コサイン距離
2つのベクトル間の角度のコサイン

ピアソンの相関距離
1とコサイン係数の2つの観測値の違いです。コサイン係数は、2つのベクトル間の距離の余弦です。

Jaccard距離
1とJaccard係数の2つの観測値の違いです。バイナリデータに関しては、Jaccard係数は2つの観測値の交点と統合したサイズの比と等しくなります。

クラスター法

Nearest Neighbor (最短距離)
この方法では、2つのクラスター間の距離がそれらに最も近いオブジェクトの距離として使用されます。この方法はプロットされたクラスターが引き延ばされている(連なっている)場合に有効です。

Furthest neighbor (最長距離)
この方法では2つのクラスター間の距離が別々のクラスター内にある2つのオブジェクトの最大距離として使用されます。この方法はプロットされたクラスターが特定のまとまりになっている場合(連なった鎖状ではないとき)に有効です。

群平均
この方法では2つのクラスター間の距離は別々のクラスター内にある2つのオブジェクトの平均距離として計算されます。通常の場合、この方法がより多くの情報を使用するため、最もお勧めです。

重心
クラスターの重心とすべての変数の距離の合計が最も小さいものが統合されます。クラスターの重心は多次元空間の平均点になります。

中央値
この方法は重心法ととても似ていますが、こちらは重み付けがされていません。クラスターの大きさが著しく違う場合は使用しないでください。

重心法または中央値法が選択された場合、平方ユークリッド距離を使用することをお勧めします。

Ward
各クラスターで、そのクラスターに属する変数の平均が計算されます。そしてすべての場合で、クラスター平均間の平方ユークリッド距離が計算されます。全ての場合でこちらの距離を合計します。統合されるクラスターはこの合計の上昇が最も小さい2つが統合されます。この方法はクラスター内距離の平方和の上昇を最小に抑えます。この方法はたいてい小さいクラスターを生成します。

K-Means 法クラスター分析

K-means法クラスター分析は観測値を分類するのに、K個のクラスターを使います。この考え方はデータとそれが対応するクラスター重心間の距離が最小になるようにするものです。K-means法分析はクラスター分析を行う中でも最も簡単なアルゴリズムの１つを使う方法なので階層的クラスター分析よりも速く分析結果が出てきます。

一般にサンプルサイズが100より大きくなる場合、K-means法分析を使用することを考慮してください。しかしK-meansクラスター分析はユーザが観測データの重心、または最低限、クラスターに分けられるグループ数をすでに知っているものであると仮定しています。

クラスター手法を選ぶ

K-meansクラスター分析での最初のステップはクラスター中心を見つけることです。階層的クラスター分析を小さなサンプルサイズで行い、適当な初期のクラスター中心を求めてください。または、クラスター数を指定してOriginが自動で十分に離れている値を初期のクラスター中心として設定します。この自動解析は外れ値に敏感にできています。ですので、分析を始める前に外れ値の有無を確認してください。

欠損値の扱い

トレーニングデータ/グループ範囲に、欠損値がある場合、全てのケース(全行)が分析から除外されます。

このセクションで説明している項目