この記事は、Open and Reproducible Science Advent Calendar 2020 の6日目の記事です。
日本心理学会第84回大会(オンライン)において、「再現可能な心理学研究入門」というシンポジウムが行われました。そこで僕も登壇させてもらったのですが、そのショートバージョンを記事にしようという手抜き記事です。
なお、フルバージョン及び動画はこちらのOSFにアップされていますので、興味がある方はそちらもどうぞ。
以下、長いので特に読まなくていいです。
このシンポジウムで僕がいいたかったのことは2つあって(しかも独立している)、そのうちの1つが上のスライドです。
統計分析における再現性問題は、論理の問題と信用の問題の2つが絡み合っていて、それぞれ分けて考えたほうがいいよね、ということでした。これ自体は特別新しいメッセージではないですが、いろんな現場を眺めてて、まぁなんというか改めて言いたかったんです。
論理の問題は、NHST(帰無仮説有意性検定)が統計的過誤を確率的にコントロールする推論(意思決定)ツールであるとしたとき、使い方を誤ると過誤をコントロールできなくなるという話です。「こういう手続で推論すれば、危険率(5%)で第一種の過誤を抑えられますよ」という枠組みは、理解して、守らないといけない。
一方で、その守らなければならない手続きを本当に守っているかどうかは、検定の論理の枠組みを超えたところにあります。論文の著者と読者(査読者含む)との信用の話になります。極端な話、データの捏造は検定の論理では何も言えません。そして、現状再現可能な統計分析と言った場合、その信用の問題のなかで、あたかも検定の論理の枠組みであるかのように語られることがあります。それは区別したほうがいいのでは?ということが言いたかったのです。
信用の問題について、再現性問題がでてきてから、いろんな意味で「厳しく」なりました。たとえばあらかじめ(心のなかで)統制する共変量を決めていたとしても、他に共変量をたくさん測定していれば、計画的な分析として認められにくいでしょう。「それは分析結果を見てから共変量を変えたのではないか」という疑いが向けられます。
どんな分野でも不正が行われれば、ルールは厳しくなります。科研費の使い方なんかで我々は嫌でもそれを痛感しています。いままでちゃんとやっていた人でも、他の人が不正すれば、疑われるようになります。どこまで厳しくなるのかは僕にはわかりません。人間は疑いモードになるとどこまでも疑えますからね。我思う故に我あり、までいくかもしれない。
というわけでプレレジの重要性がでてきます。疑われないように、あらかじめ計画を明らかにしておけばいいのです。これを共変量にします、というように。シンポではそういうストーリーでお話しています。
しかし、実際にはプレレジもいくらでも捏造できます。全部データとって、分析して、その後プレレジして、論文書けばいいんですから。なので、プレレジの査読を行えばそれはある程度解決します。プレレジの査読をすれば、査読者のコメントに従って計画を変える必要も出てきますから、あらかじめデータを取って分析しておく、というのは難しいでしょう。しかし、それもおそらくハッキングできます。あらゆる制度はハッキングできますからね。もちろん制度を厳しくすると、不正にはコストがかかりますから、不正のインセンティブとコストのバランスによって、不正をする人は減っていくでしょう。でもそれはあまり健全な感じはしませんね。僕のただの直感ですけれど。
ついでに、プレレジは信用を獲得することだけに機能するわけではなくて、他にも利点があります(事前の計画を文章にしたり、人からコメントがもらえて計画が洗練される、自分自身の後知恵バイアスを抑制できる、論文が出る前にアイディアがあったことを保証できる、など)から、僕としてはどんどんプレレジしたらいいと思っています。念の為。
でも多くの研究者は、プレレジのハッキングという話を聞くと、「え、それはさすがにダメなんじゃない?」と思いますよね。僕も思います。ではなぜ最初の段階で「それはさすがにダメなんじゃない?」って思わないのかが気になります。データ捏造とかプレレジハックは明確な悪意があるけど、共変量の統制については無理解によるものが多いからでしょうか。しかし、わかっててやってたら検定のルールから逸脱したことは明確ですから、やっぱりダメですよね。
それはおそらく、何が、なぜ、検定の論理で禁止されているかの知識と、それがどれくらいダメなことなのかの倫理観が十分じゃないからでしょう。データ捏造と共変量の統制の話は、悪意があるものはたいてい証拠が残るけど、分析意図にかかわるものは証拠が残らないので、そういう違いもあるかもしれませんが。
ルールを守らせるのに「心意気でカバーする」のはたいてい馬鹿にされますが、やっぱそれでも啓蒙も大事だと思うんですよね。ちゃんと教育して、研究者としての倫理観を育てること。これが何よりも大事だし、社会全体のコストを下げることにも繋がります。うちの院生さんが研究しているテーマに、社会的ジレンマにサンクションを持ち込むと社会選好や信頼が失われるというのがあります。具体的に言うと、協力すると損する場面だと、だんだん人は非協力的にはなるんですが、合理的な経済人に比べれば普通の人は利他的には振る舞うんです。でも非協力を罰する制度を用意すると、そのときは協力が増加しても、罰制度が終わると利他性がその前よりも低下するという現象です。つまり罰によって利他性が破壊されるというわけです。
それがどういうメカニズムなのかはまだわかってないことがたくさんあるし、その現象が再現されるかもまだわかりません。しかしその話を真に受けるならば、不正を前提とした厳しいルール設計は、研究者倫理を破壊する可能性があるんじゃないかという気もします。そのルールに従いさえすれば論文載せてもらえるなら、とりあえず従いますよ、という感じで。
何がいいたいかといえば、教育・啓蒙をちゃんとしないとね、ということです。再現性を低下させている要因はいろいろあると思います。検定の論理の無理解による不正と悪意のある不正のどちらが多いかはわかりませんが、たぶん前者のほうが多いのではないかと思います。やっぱり教育しないとね。もちろんそれだけで解決するとは思っていませんが、だいぶ減るだろうと期待しつつ。
最後に、上のスライドにはないですが、シンポで話した2つ目の話に触れて終わります。
再現性問題で、NHSTがよく槍玉に挙げられますね。その代替案として信頼区間(ベイズ統計の事後分布も含む)を使うというのがあります。僕はそれについては理念的にいいとは思いますが、現実問題として完全にNHSTの代わりになるのはかなり難しいだろうと思っています。シンポで話したように、信頼区間だけを使って因果効果の推論を行うと、推論の再現性が担保されず、一つの論文で主張できることがかなり限定されます。よって、1つの論文でなにか知見を主張できないので、論文というものの性質がいまとだいぶ変わってしまうと思うからです。また、論文の引用の仕方も再考しなければなりません。推論の正当性を担保できないので、考察自体を引用するのが難しくなるはずです。
マイクロパブリケーション、メタ分析、論文のツリー型ネットワークなどが必要になってくると思います。すると、査読のあり方、フルペーパーとの違い、業績のカウントの仕方、などなど、いろんなところで論文のあり方が変わってくるでしょう。理念的には、僕としてはそうなるといいかなと思うところもあります。でもすぐには難しいでしょうね。日本の心理学のアカデミアの環境が、それを抑制する可能性もあります。
というわけでまずはNHSTをちゃんと理解して、ちゃんと使うというのが大事かなと思います。
あと、統計モデリングがすぐに再現性を解決してくれるとは思っていません。因果効果の再現性の話と、モデリングは、だいぶ違う話だと思います。詳しくは感情心理学会のセミナーのスライドをご覧ください。ただ、因果効果などについて、「何が棄却されるとモデルのどこが否定されたのか」が明確になればなるほど、推論の再現性は担保されます。よって、結果的には心理学における知見の蓄積がしやすくなるだろうとは思います。つまり、間接的には役立つ可能性はあります。