HAD9.65をアップしました。
増えた機能は、以下の2つです。
1.クラスタ分析に、非階層クラスタ分析を追加しました。
2.多変量正規乱数データを生成する機能を追加しました。
1.は、これまでHADには階層クラスタ分析しかありませんでしたが、非階層クラスタの方法も追加しました。
SPSSでは、「大規模クラスター」という名前になっている方法です。
階層クラスタ分析は、クラスタに階層性を仮定して、ボトムアップ的に分類する方法ですが、
非階層クラスタ分析は、クラスタ数を指定して、トップダウン的に分類する方法です。
サンプルサイズが大きい場合、階層クラスタではかなりの計算量になるので、非階層クラスタが便利です。
方法は、k-means法と、マハラノビス距離を用いたk-means法の2種類です。
k-means法は、ユークリッド距離を使ってサブジェクトを分類します。
マハラノビス距離を使った方は、データの関連性を考慮した距離を使います。
後者の方が、上手く分類できることが多いです(逆に、指定するクラスタ数によっては、上手くいきません)
初期値はランダムと、主成分分析を用いた初期値設定法による2種類があります。
後者は、データを主成分分析し、各主成分の主成分パターンに最も近いサブジェクトを中心とする方法です。
もしデータの主成分軸が、各クラスターを特徴づけているなら、適切な初期値になります。
そうでないなら、ランダムにした方がいいです。
2.の、多変量正規乱数データの生成については、2種類の発生方法があります。
1つ目は、手元にあるデータと同じ共分散行列・サンプルサイズの乱数を生成する方法です。
授業で使うサンプルデータの作成に便利です。
2つ目は、任意の共分散行列を別のシートに作成し、それに基づいて乱数データを生成します。
相関行列を入力しておけば、多変量標準正規乱数となります。
変更点は以上です。