Stanでカテゴリカル因子分析

 

この記事は,Stan Advent Calendar 2017の6日目の記事です。

今日はカテゴリカル因子分析をStanでやってしまおう,という記事です。

 

カテゴリカル因子分析とは

カテゴリカル因子分析とは,順序尺度で測定されたデータを使って因子分析をしたいときに使う方法です。過去に書いた記事がありますので,詳しくはそちらを御覧ください。

カテゴリカル因子分析について

カテゴリカル因子分析は,上の記事にもあるように,重み付き最小二乗法で解くことが多いです。重み付き最小二乗法は,まずポリコリック相関行列をデータから求めて,その相関行列を標準誤差行列の逆行列で重みづけながら最小二乗法で解くという二段階の推定を行います。一致性はありますが,二段階で解く(正確には閾値を求めてから相関を計算するので3段階)というのはスマートではない感じがします(あくまで個人的感想です)。

最尤法で一気に解けないことはないですが,因子数が多くなったり,項目数が多いと重積分の計算が大変になって,その数値計算の近似精度も悪くなっていきます。

重み付き最小二乗法でも,もちろん悪くはないのですが,確率モデルをベイズでそのまま解くことができる方が,ほら,なんていうか,気持ちいいですよね(おい 

というわけで,Stanでカテゴリカル因子分析をやってみたいと思います。

ついでに,過去に多次元項目反応理論をStanでやってみよう,という記事を去年のStanアドカレで書いています。

Stanで多次元項目反応理論

これで似たような分析はできるんですが,このコードをMCMCで実行すると2~3日かかることがあります。めちゃくちゃ時間かかるんです。変分ベイズなら1時間程度で終わりますが,変分ベイズはStanでもそれほど推奨されてない(むしろ推奨してない)ので微妙なところです。

そこで今日は,前日の記事であるポリコリック相関係数を利用したカテゴリカル因子分析をやってみます。そうすると,MCMCでも(項目数によりますが),1時間~3時間ぐらいで終わります。すごい!速い!(あくまで相対的な意味で)。なぜこんなに速くなるかというと,ポリコリック相関を使ったカテゴリカル因子分析は十分統計量としてクロス表を利用できます。よって,フルのデータを使って分析するIRTに比べて非常に高速です。高速といってもまぁ1時間はかかるんですが。

未読の方は昨日のアドカレ記事も合わせて見ていただけるといいかと思います。

Stanでpolychoric相関係数を推定する

 

サンプルデータ

今回もサンプルデータはpsychパッケージに入ってるbfiにします。ただ,データがでかいのと項目数が多くて時間がかかるので,500人15項目に減らします。この15項目は理論上3因子に分かれるはずです。

ついでに今回使うパッケージも一緒に読み込みます。rstanはもちろん,psychとdplyrを入れておきます。でもパイプ演算子を使いたいだけなので,magrittrパッケージだけでもOKです。

 

psychパッケージのirt.fa()関数でやってみます。これはポリコリック相関行列+minres法の結果です。本来は標準誤差行列の逆行列で重み付け無いと一致推定量にならないのですが,psychの関数ではそこまではやってくれません。3因子でオブリミン回転をしてみます。

 

結果は以下です。

 

ついでに,Mplusでもカテゴリカル因子分析ができます。その結果も載せておきます。上のpsychの結果とそれなりに近い結果になってるのがわかると思います。

 

 

 

カテゴリカル因子分析をStanでやる

さっそく,カテゴリカル因子分析を実行するStanコードを書いてみました。ベースとなってるのは前日の記事のポリコリック相関係数を求めるコードです。これに因子分析のコードを合わせた感じです。これをpolychoric_fa.stanというファイルに保存します。

 

コードのポイントは,因子負荷量は-1~1の範囲に収まるようにしています。こうしないと,相関行列が1を超えてしまい,尤度の計算ができなくなってしまうからです。因子負荷量の制約の書け方については,去年の小杉先生のアドカレ記事を見ていただけたら何となく分かると思います。

 

これを実行するためのRコードを関数化しました。fa.poly.stan()です。psychパッケージにfa.poly関数がある(もうdeprecatedみたいですが)ので,それをもじってみました。

 

 

中で少し工夫をしています。まず,因子分析は初期値の設定が大事です。因子分析は解が正負逆転しても成り立つので,符号についての不定性があるのです。なので,MCMCが正側に行くか負側に行くかは,初期値に大きく依存します。よって,初期値をすべてのチェインで同じにしておく必要があるのです。

できるだけ事後分布に近い初期値にするために,まず相関行列をコレスキー分解したものの一部を使って1つのチェインで200回分だけ走らせます。そして,その解を4つのチェインの初期値にしてもう一回走らせる,というまぁ面倒なことをやっています。

最尤法や最小二乗法の結果を入れたらええがな!と思われるかもですが,R上でええ感じにやってくれる関数がないこと,またStanで因子負荷量を推定するためにはちょっと因子負荷行列に制約を与えないといけないことなどがあって,上手くいかないのです。というわけで今回は上のような処理をやってみました。

上の関数を読み込んでおけば,実際に実行するRコードは下のものだけでいけます。

 

結果は以下になります。

一応なんとか収束していますが,若干自己相関が残ってる感じもします。今回は4000回サンプリングしてますが,もう少し多くてもいいかもしれません。

もしRhatがとても大きいもの(5とか)があった場合,多峰性を疑ってみてください。それはチェインによって収束した符号が違ってる場合に起きます。あとでチェインごとに正負をひっくり返してもいいのですが,できれば初期値をそろえて走らせたほうが面倒がなくていいと思います。

さて,得られたlambdaは制約入りの因子負荷量で,いわゆる初期解みたいなものです。これを回転して,解釈がし易い因子負荷量行列になります。

事後分布そのものを回転させることもできますが,それはまたの機会として,今回は初期解の中央値だけを回転してみます。上のMplusの結果とだいたい似ているのがわかると思います。

 

 

因子得点の推定

カテゴリカル因子分析は,因子構造を知るだけでなく,因子得点の計算も必要になります。なぜなら,このあと尺度平均値で因子得点を求めてしまったら,わざわざ時間を書けてまで順序尺度を仮定した分析を行った意味が半減してしまうからです。

というわけで,上で求めた因子負荷量行列を入れたら因子得点をカテゴリカル因子分析のモデルでMCMC推定するStanコードも書いてみました。

こちらは上のコードとは違って純粋にサンプルサイズに計算時間が依存します。500人ぐらいでも4000回で1時間ぐらいかかるかなと思うので,上と合わせて2~3時間はかかる計算になりますね。根気とStanへの愛が試されます。

Stanコードは以下です。

 

途中,コメントアウトみたいになってますが,Stanでは転置の演算子が ’ なので,こうなってしまってます。このまま貼り付けてもらえればStanではちゃんと動きます。

次に,Stanコードを実行させるための関数を作りました。fa.poly.stan.score()です。

 

この関数を下のコードで実行すれば,因子得点を得ることができます。今回は2000回で少なめにしています。

関数の引数は,データ,モデル,fa.poly.stanが出したstanfitオブジェクト,回転方法などなどです。今回はオブリミン回転を使ってますが,Promaxと書けばプロマックス回転になります。詳しくはGPArotationパッケージの説明を見てください。

一応収束を確認しましょう。

一番悪くても1.003と,とてもキレイに収束していました。

 

また,Mplusで計算した因子得点との相関係数を出してみましょう。

 

結果は下のような感じ。回転によって因子の場所がズレてますが,該当する因子同士の相関は0.99を超えています。推定はちゃんとできていそうです。

 

というわけで,カテゴリカル因子分析をMCMCで推定する方法についてまとめました。カテゴリカル因子分析をベイズでやる意味は・・・あまりないかもしれなけど,最尤法で不適解が出たときとの選択肢としてあるといいかなと思います。時間は結構かかりますけど。

Enjoy!

This entry was posted in 心理統計学, Stan. Bookmark the permalink.