前回の記事の続きになります。
頻度主義統計、ベイズ統計、統計モデリングからみた「真値」【追記あり】
こちらを読んでもらったほうが、文脈がわかっていいかと思います。
なお、今回も新幹線の移動中に走り書きしてるので、ほぼ勢いです。でもこういう勢いで記事を書くのもそれなりに意味があるかなと思ってます。しっかり書こうとするとなんか結局書けなくなったりするんで。
◆心理学はパラメータの解釈が大事
心理学にもいろんな方法論がありますが、統計学を用いる心理学の大半が実験+分散分析で帰無仮説検定が使われてるのではないでしょうか。僕の専門である社会心理学では実験でも重回帰分析+調整分析or媒介分析もよく使われるのですが、なんにせよパラメータが0であるという帰無仮説に対する検定というのが主流であることは間違いありません。
前回の記事では、「統計モデリングを使うならパラメータ解釈なんて別に要らなくて、予測分布をどう作るかが問題なのでは」という話になっていましたが、実際心理学でそういう統計学の使い方は皆無に近いです。
それでは、なぜ心理学、そしておそらく社会科学ではパラメータの解釈が重要になったのか。それについてあーだこーだ考えてみました。
心理学でパラメータの解釈が大事、と書きましたが、これもまた一通りではなくて、いくつかパターンに分けられます。こういう雑な分け方をすると後でまた反省することになりそうですが、まぁそこも勢いで。
1.統計的因果推論、つまり実験効果の差があるかどうかに注目するパターン
2.母集団の要約統計量が知りたいパターン
3.線形モデルの回帰係数が0であるかどうかに注目するパターン
4.心理測定、つまり潜在変数を推定しようとするパターン
の4つぐらいに分けられるんじゃないかと。
先に結論を言っておくと、1.は因果推論の枠組みで理解する話なので統計モデリングとは別な話、2.は実質科学的知見としてパラメータを知る必要がある場合で、ここは前回の記事と密接にかかわる話、3.は統計モデリングの誤用なのではないかという話、4.は心理学のロマンという話です。
◆実験効果の差を見るパターン
心理学のアイデンティティに、人(あるいは動物)を対象とした実験で因果効果を明らかにする、というのがあるんじゃないかと思います。みんな実験大好き。
無作為割り当てされた、ある実験操作、処置、介入が、統制群と比較して効果を持つのか。それがい知りたいわけです。残念ながら心理学ではランダムサンプリングなんかほとんどしませんが、人間の同質性という仮定のもと、とりあえずランダムに人を選んだとした場合、母集団における因果効果があるのか、ないのか。それに白黒つけたいわけです。
この場合、統計モデリングの考える真の分布、あるいはデータ生成メカニズム、という発想とはちょっと違っていて、処置に効果があるのかどうなのか、その大きさはどれくらいか、というのが知りたい、という枠組みになっています。こういう文脈ならやっぱり「真値」は考えたくなります。同じ母集団の人なら、同じ処置を施せば、同様の効果がでる。つまり、処置効果の再現性は、真値の推定と密接にかかわっているように思うからです。
真の因果効果を知るのは原理的には無理ですが、平均処置効果を推定することができる。というのが統計的因果推論の考え方ですが、まさにそういうことを心理学実験ではやろうとしているわけです。今では経済学や政治学でも人や動物を対象とした無作為割り当て実験が行われるようになっていて、そういう分野でもパラメータ(平均処置効果)の解釈が重要になってるのではないでしょうか。
◆母集団の要約統計量を知りたいパターン
計量社会学などにおける調査は、「社会の記述」だ、という話をちょくちょく聞きます。まず目的として日本の有権者の平均的な意見が知りたい、そこで推測統計学を利用してそれを推定している、という枠組みです。
この場合、実質科学的な目的として「母集団の要約統計量が知りたい」が先にあって、その方法として統計学が用いられているので、統計学の本質が仮に予測であっても、あまり関係ない話なのかもしれません。
心理学や社会科学でもそういう社会調査の考え方はもちろんあって、たとえば社会学的な社会心理学、あるいは政治科学(計量政治学)では標本の代表性に注意を払いながら、日本人の社会意識の実態を知る、ということをやっています。
ただ、心理学全体でみるとこういう意味での「パラメータが知りたい」パターンは少数派かもしれません。
◆線形モデルの回帰係数が0であるか否かを知りたいパターン
調査を使う心理学、たとえば社会、教育、臨床、発達などの心理学では、調査データに対して線形モデルをあてはめ(ほとんどが重回帰分析)、回帰係数が0であるか否かを検定する、という方法がよくつかわれます。社会心理学ではこれが主流といってもいいです。おそらく、計量社会学も似たような使い方をしているのかな、と思います。
僕もこの方法は使ってきましたし、学生にも指導しているんですが、この方法ってよく考えたらいろいろ変だな、と思うようになってきました。
まず調査データで因果推論をしようとしているのかというと、どうもそうでもない。たしかに統制変数をいろいろ入れたりはしますが、因果推論のいろんな条件については無頓着だし、時系列データを使うことも稀です。つまり、因果効果の推定にもなってない。しかし、回帰係数はほとんどが標準化された回帰係数がみられていて、「おお、この変数の効果は大きいな」という解釈をしている。謎です。
一方で、データ生成メカニズムを考えているのかといえば、そういうわけでもない。そもそも線形モデルが真のメカニズムだ、ということなんてほとんどないし、理論的な過程から線形モデルとなることを導出したわけでもない(たまにそういうモデルはありますけど)。
線形モデルが効力を発揮するのは、やはり予測力を高めるためにたくさんの変数を投入したい場合だと思います。なんならN次式で予測してやれば、予測力はどんどん上がることになるからです。しかし、心理学の調査で予測を重視するような解釈をすることは皆無です。もちろん予測分布なんてものも考慮しません。
というわけで、「現状の」、調査データに線形モデルを適用し、パラメータの検定をするという方法はとても中途半端であることがわかります。せめて傾向スコアなどを利用して統計的因果推論の枠組みに持っていくか、理論からモデルを導出してフィッティングするか。どっちかの方向に向かわないと意味がないのではないかと思います。これは自戒を込めて反省。
似たようなことは計量政治や計量経済でもやっているように見えますが、これらの分野では、「因果推論をしよう」という態度が強く、心理学にくらべてもっとちゃんとやってるという印象です。
◆潜在変数を推定するパターン
パーソナリティ心理学をはじめ、社会心理学、教育、臨床、などの分野では因子分析をよく使います。パーソナリティと態度は、厳密には適用すべき潜在変数モデルは別になるんですが、細かい話は置いといて、潜在変数を推定し、個人差を測定するということをよくやります。
この流れは、ベイズ統計モデリングで階層モデルが使えるようになったことによって、認知心理学でも使われ始めています。因子分析もいうなれば階層モデルなんで、同じパターンだといえます。
さて、どちらも因果推論はまったく関係なく、統計モデリングの枠組みで理解できる方法を使っていると思います。因子分析は、心理学で生まれた統計モデルであることもあって、本当によく使われます。心理学者しか使ってないんじゃないか、という気もしますが。
さて、この心理測定という考え方は、かなり心理学特有の考え方なのかもしれない、と思い始めています。そもそも、潜在変数の個人差を知ろう、というのは、心の個人差に関心がないと出てこない発想でもあるので、ある意味「心理学者のロマン」なのかもしれません。
「心は測れるのじゃ」というのは、結構強い主張です。社会科学の中でも異端かもしれません。
しかし、気を付けないといけないのは、測定されたとされる潜在変数は、想定している統計モデルが妥当でなければ、その潜在変数の心理学的解釈も妥当ではないだろう、ということです。そして、その妥当性をどう担保するのか、というのが最も難しいところです。
上では因子分析と認知モデリングがパターンとしては同じ、とくくりましたが、実際はいろいろ違います。(心理学でよく使われる意味での)因子分析は、項目の「意味内容」から構成概念が解釈されます。それに対して、認知モデリングは認知課題の性質と、モデルの数理的な性質から構成概念の心理的解釈が行われます。どちらも何らかの形で解釈が入るのは共通していますが、「文の意味」というものに重きを置いているのが(心理学の)因子分析ということになります。
どちらがいいとか悪いとかそういう話はここではしませんが、解釈をどうするのか、その解釈の妥当性をどう担保するのかが大きな課題になります。心理学のアイデンティティの一つでもあるので今一度まともに考えたほうがいいな、と思っています。
◆というわけで、やっぱり心理学ではパラメータの解釈はやめられないだろう
これが結論です。
ただ、心理学の再現性問題、モデリングをどう運用していくのか問題を考えていくときに、これまで通りでやっていっていいのだろうか、という疑問がないわけではありません。実験+帰無仮説検定におけるQRPsについての問題はもちろん、上でも指摘しましたような、因果推論でもメカニズムを知るわけでもない、予測のためでもない線形モデルの活用は、限界があるのではないかと思っています。また、潜在変数の利用も、今までのように無自覚に統計モデルが正しい、という仮定のもと、バカバカ心理尺度を作ってみたり、アドホックな統計モデルを作るのもどうかと思います。この点については、もう少し突っ込んだ記事を書きたいなと思います。
あと、これらの話は「頻度主義かベイズ主義か」という話では全然ない、という点も強調しておきます。ベイズで何かが解決するわけではないです。今のところベイズ統計が解決してくれるのは、解きにくいモデルを解いてくれる、という点ぐらいではないでしょうか。ベイズ統計による仮説評価の文脈も利点があるとは思いますが、まだまだ発展途上中かな、という感じもしています。
こうやって見てみると、心理統計学とよばれるものも、いろんな流れが合わさってきて形を作ってるんだな、と思います。僕は社会心理学をやってるので、ほかの心理学の分野でどういうことをやってるのかよくわかってないので、洩れてたらすみません。ご指摘いただければと思います。
以上、走り書きでした。