主成分分析

関連する動画はこちら：Principal Component Analysis

内容

1 目的
2 手順の流れ
1. 2.1 分析データの準備
2. 2.2 主要仕様を選ぶ
3 主成分分析を実行する

主成分分析(PCA)は線形の組み合わせからある値のセットの分散―共分散の構造を説明するために使用されます。これは次元縮退テクニックとして使用されます。

目的

PCAを使用する主な理由は2つあります。

データの削減する方法

PCAは元の大量にあるデータからの情報を最小限の情報ロスで新しく複合次元にし小さく分けるのに一般的に使用されています。

解釈

PCAは大きなデータセットの重要な要素を発見するのに使用されます。しばしば以前は見つからなかった関係性を明らかにし、その結果一般では結論付けられない解釈を行うことができます。

PCAは通常入力変数が大きすぎて有益な分析を行えない場合のデータ分析の中間段階として使用されます。

手順の流れ

分析データの準備

PCAは一般的に強く相関している変数同士で使用されます。変数間の関係性が弱い場合、PCAはデータをうまく減らせなくなります。詳細は相関行列で確認してください。一般的に、ほとんどの相関係数が0.3より小さい場合、PCAはうまく働きません。

主要仕様を選ぶ

主成分の数

常にどれだけの主成分を残しておくかという質問が出てきます。詳しくはスクリープロットと相関行列の固有値をご覧ください。

相関行列か共分散行列から開始する

相関行列は共分散行列のすべての変数が１になるように正規化されたものです。もし変数の目盛りが同じようであるならば、共分散行列の方が好まれています。これは相関行列は変数の正規化を行っているときに情報を失うからです。変数がそれぞれ異なるスケールで計測されている場合、相関行列がおすすめされます。

リストワイズまたはペアワイズで欠損値を取り除く

ペアワイズかリストワイズで欠損値を取り除くのはその欠損値の状況によります。そこに一つの変数内でいくつかの欠損値があるならば、その行全体を削除することが一般的に行われます。これがリストワイズで除外です。もし2つ以上の変数で欠損値がある場合、ペアワイズで除外するのが一般的に一番良いといわれています。

主成分分析を行う

メニューから統計：多変量解析：主成分分析と選択します。

または
スクリプトウィンドウでpca -dと打ち込んでください。

このセクションで説明している項目