先輩のつぶやきを見て、Mplus6がアップデートされていることが判明。さっそくインストールしてみました。
今回のアップデートで、ついにMplusもMCMCを搭載しました。MCMCはベイズ統計学に基づいた推定方法で、マルコフ連鎖モンテカルロ法の略です。最尤法などの頻度主義とは違い、全部確率分布で考えます。なので、パラメーターも真値ではなくて分布を推定します。(このあたりの説明は面倒なのでパス)。
ぱっと見たらユーザーガイドにベイズの説明を見つけるのは大変です。ベイズだけのセクションていうのがなくて、各セクションごとにベイズの説明が書いているので読むのが面倒です。なので、覚書程度に下にまとめておきます。
なお、Mplusとはなんぞや、という方はこちらを参照してください。
また、Mplusの簡単なプログラム方法についてはこちらを参照してください。
ここからはMCMCをある程度知っている人向けに書いてます。ご了承ください。あくまで個人用メモなので。あと、僕がよくわからないオプションは飛ばしてます(汗)。
まず、Modelオプションのところで
Estimator = BAYES;
と書くとベイズ推定ができます。
ベイズ推定では連続変量はもちろん、カテゴリカルデータの分析も可能です。また、今まではカテゴリカルデータは外生変数(いわゆる独立変数)にできなかったのですが、ベイズ推定を使えば可能です(なお、カテゴリカルデータの回帰はプロビットリンクを用います)。
ベイズ推定は上にも書きましたが、ただひとつの真値を仮定しません。パラメーターを確率分布(事後分布)として推定します。もちろん点推定も可能で、その場合は分布の平均値や中央値、場合によっては最頻値を利用します。信頼区間は得られた事後分布の95%の範囲をそのまま計算します。なお、事後分布は正規分布であるとは限りません。
MCMCでは、事後分布をサンプリングを繰り返すことでシミュレーションによって推定します。なので、得られたサンプルの平均値(あるいは中央値)がそのまま点推定値になるのです。また真値を仮定しないので、標準誤差という言い方はしません。分布の標準偏差がその代わりです。
Mplusでは、以下のような結果を出力します。
点推定値 標準偏差 片側検定の確率 95%信頼区間
です。
なぜ片側検定なのかというと、僕も自信はないですが、事後分布なのでどっちが0の方向か一意にわかるからじゃないでしょうか。
モデルフィットについては、以下のとおり。
事後予測p値
値が0.5に近いほど当てはまりがよく、0.0や1.0など極端な値ほど当てはまりが悪いと判断する。ただし、頻度論的なカットポイント(例えば0.05以下だと当てはまりが悪い、など)は使わないのが一般的。あまりそういう二分法的な考え方はベイズには合わないのかも。
DIC(Deviance Information Criterion)
AICみたいに、絶対的な値は意味がない。モデル比較に用いることができる。ただし、カテゴリカルデータを含んだデータだとDICの計算はできない。
ベイズ推定の各オプションは以下のとおり。
- Point 点推定値の計算方法を選べます。
- MEAN、MEDIAN、MODEの3つから選べます。左から、平均値、中央値、最頻値です。
- デフォルトは中央値。
- CHAIN マルコフ連鎖をいくつ走らせるかを指定します。デフォルトは2。
- BSEED マルコフ連鎖につかう乱数の種。デフォルトは0。
- STVALUES パラメーターの初期値。設定の内容はよくわからんけど、デフォルトはUNPERTURBED。最尤推定の結果を初期値にすることもできる。その場合はML。
- ALGORITHM MCMCのアルゴリズムを選ぶ。ギブスサンプラーかMHを選べる。デフォルトはギブスサンプラー。なお、マルチレベルと潜在構造分析ではMHは選択できない。
- BCONVERGENCE 収束指数の指定。Gelman & Rubin (1992)のPSRという指標を用いる。この指標は1に近いほどよい。Gelmanらは1.1ぐらいで収束したとしてよいとしている。指定の方法は、1.05にしたければ0.05と入力。デフォルトは0.05。なお、デフォルトではMplusは収束指数に従ってサンプリングを終了する。
- BITERATIONS 最大反復回数の指定。デフォルトは50000。
- FBITERATIONS 収束指数を使わず、固定のサンプリング回数を指定する。
デフォルトでは設定されていない。
また、MODEL PRIORS コマンドによってパラメーターの事前分布を選択できます。デフォルトは無情報分布と呼ばれる、推定に影響しない分布(平均やパスは正規分布、分散は逆ガンマ分布)を用います。この場合、分布の平均は0で分散は無限です。
- 正規分布はNORMAL
- 逆ガンマ分布はInverse Gamma
- 一様分布はUniform
その他いろいろ選べます。でも基本は無情報分布でいいと思います。分析が恣意的になりますし。
以上が簡単なまとめでした。また何かわかったら追記します。