「研究仮説が正しい確率」について

※記事についてリプライを頂いたので、いくつか追記をいれました。

Twitterで豊田先生の新しい本のタイトルについて議論がいろいろ出ているようです。

瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―

統計学が瀕死かどうかはさておいて、TLを見る限り「仮説が正しい確率」という言葉について議論が出ていて、気づいたら心理統計界隈の人も(そして僕も)名指しで批判されていて、あららという感じです。

特に黒木さんから批判されているのですが、

この一連のツイートで指摘されている僕の理解は、(少なくとも部分的に)間違いだと認めます。以下に書くように、その確率が確率モデルの想定が正しいという仮定の下での、という記述がないことが問題なのだろうと思います。ベイズでも頻度でも、確率モデルの想定を超えて、何かしらの確率について言及することはできません。

というわけで、僕の今の理解をとりあえず書いておこうと思うのですが、だーっと書いてるので読みにくかったらすみません。

あと、もちろんですが、当の本が手元にないので、今の豊田先生がどういう意図でその言葉を使っているかは正確にはわかりません。これまでの豊田先生の書籍や、直接議論させてもらった感じからの想像で、どういうことを言っているのかについてまとめてみます。

統計学における仮説と、それが真である確率

まず、仮説が正しい確率についてですが、上の本の目次とかを見ると、豊田先生は「研究仮説が正しい確率」という言葉を使っています。これがベイズ統計で分かるのか、というのが根本の議論の出発点なんだろうと思います。さて、ベイズ統計で仮説が正しいかどうかはわかるのでしょうか。

【追記】以後、ベイズ統計におけるパラメータの範囲についての仮説が真である確率について書きますが、それは豊田先生がいっている「仮説が正しい確率」と同じであるかはわかりません。その点ご注意ください。

まず、統計学における仮説というのは、頻度でもベイズでも、母数についての等号や範囲についての仮説を意味することが多いと思います。心理学ではほとんどが母平均や母相関、母回帰係数についての仮説が使われます。ここでは、母集団は潜在的な値の集合で、そこから計算された統計量を母数と考えています。

まず、母集団からのサンプリングに対して確率モデルを仮定します。この時、確率モデルにパラメータが設定されるわけですが、多くの場合、「母集団からのサンプリングをその確率モデルで十分近似できているならば、そのパラメータと母数が一致しているといえる状況」が想定されています。たとえば、母集団からのサンプリングが正規分布に近似できるとき、母平均と、確率モデルとしての正規分布の位置パラメータμが一致するだろう、という想定です。

たぶん、ここの「」部分の想定が無自覚であることについて、黒木さんなんかは批判してるんだと思います。そしてその想定が成り立つ保証がないこと、でしょうか。その想定がどれくらい正しいのかは、実際のところ分からない(母集団は未知なので)のですが、多くの心理学者は(過去の僕も含めて)、その想定の成り立ちを甘く見積もっているのはそうかもしれません。多くの統計学者が甘く見積もっているかどうかは僕にはわかりません。

さて、この想定が成り立つとして、パラメータの等号や区間について仮説を立てるのは、頻度主義なら帰無仮説検定などが当てはまります。帰無仮説はμ=0という等号についての仮説です。というか頻度主義の場合は=の仮説しか立てられません(それが正しい確率もわかりませんが)。

それに対してベイズ統計の場合は、μ>cという不等号、あるいは範囲についても仮説が立てられるのが違います。それは、ベイズは頻度と違ってパラメータの推論の不確実さについても確率分布を使って表現しているからです。

ある仮説HがサンプルXを得たあとに真である確率P(H|X)は、事前の仮説が真である確率P(H)から、ベイズの定理でP(H|X)=P(X|H)P(H)/P(X)で計算ができます。P(X)は想定した仮説集合全体を考慮したうえでのサンプルXが得られる確率です。この確率は仮説の下での周辺尤度P(X|H)が計算できれば計算可能です。※間違えてたら指摘してください。

豊田先生によれば、このパラメータについての仮説が真である確率が、事後分布の確率密度のうち仮説が成り立つ範囲の割合から、計算できるとしています。この計算自体はたぶん正しいと思います。ただ、この方法で計算できるのは、1つのパラメータの範囲についての仮説のときだけであって、もっと複雑になると難しくなるのではないかと思います。また、すべての生成量についてそれが成り立つかどうかは僕にはわかりません。

そして注意が必要なのは、ここでの仮説は確率モデルに含まれるパラメータの仮説なので、想定されている確率モデルはすべての仮説において同じです。よって、確率モデルが母集団からのサンプリングを近似できていないと、すべての仮説、そしてその確率が正しくありません。上の話はその近似が成り立っているという前提の話です。もし想定した確率モデルが母集団からのサンプリングをまったく近似できてない場合、パラメータについての仮説が真である確率は、母数についてなにも言い当てていないことになります。

僕は確率モデルの誤設定において、計算された確率がどれほどバイアスを持つのか、そのあたりについては全然わかっていません。シミュレーションを使って感度分析などをするのがいいと思います。

余談というか若干の擁護。心理学において確率モデルの想定が無自覚かといえば、実際はそうではなくて小標本のときは正規分布に従ってない場合は、t検定が使えないといった知識はみんな持っています。p値自体が確率モデルを前提に計算されているというのを、数学的に理解しているかどうかは人によりけりですが、研究の実践においてはある程度センシティブなのではないかと思います。あと、心理学では母平均の推定がほとんどで、その場合標本がある程度大きければ中心極限定理によって確率モデルの誤設定に対してロバストであると習っていることも、無自覚さの原因かもしれません。

さらに余談。以前(おそらく本執筆中)、豊田先生と議論する機会がありました。そして仮説が正しい確率について、「それは帰無仮説検定と同様、確率モデルが近似できているという前提があるのだから、その名称はミスリーディングではないか」、と直接お伝えしたことがあります。その点についてはその通りだとおっしゃっていたので、少なくとも今回の本では確率モデルの前提については書かれてるんじゃないかと思っています。

タイトルだけでワーワーいう段階ではないのではないかと思います。

「パラメータの仮説が真」であることと、「研究仮説が正しい」こと

というわけで、ある確率モデルが母集団からのサンプリングを近似できているとき、母数の範囲についての仮説がベイズ統計で検証できる、というのはそうなんだろうと思います。確かに、実際そういう使われ方をしている例は僕はあまり見たことがありません。ただ、たとえば情報仮説についての評価なんかは、該当するのではないかと思います。

https://www.springer.com/gp/book/9780387096117

で、問題は、豊田先生が「研究仮説」が「正しい」と言っている点です。ここでの「正しい」の英語はcorrectで、真偽のtrueとは違うんですね。

【追記】古いテキストだとtrueのようですが、新しい資料ではcorrectとなっているので、途中で変えられたんだと思います。

研究仮説と言ってるのも、気になります。パラメータについてだけを言っているわけではないのでしょうか、あるいは帰無仮説ではないことを強調してるんでしょうか。なにか意味を込めてるんだと思いますが、これについては僕はわかりません。

【追記】ぼくはベイズ統計によって、豊田先生が言おうとしている「仮説が正しい確率」が計算可能かどうかは上でも書きましたが、わかりません。

僕がTLを見ているかぎり、「ある確率モデルの仮定の下でのパラメータの仮説」が「研究仮説」と呼ばれていること、これが炎上の原因ではないかなと思いました。要は言葉が大きかった。それは僕も思います。

確率について

ここは僕ももしかしたらあまりよくわかってないかもしれませんが、ベイズ統計における確率が何を意味してるのかについて書いて終わります。

ベイズに限らないとは思いますが、特にベイズの場合は確率が数学的に公理化された不確実さについての測度、という意味しか持たないため、確率的であることがどういう意味なのかについては定義されていません。我々の主観的な感覚の話なのか、客観的な確率(それがなんなのかも僕にはわかりませんが)なのか、その点はベイズ統計からは定義されてないのではないかと思います。

よく主観確率、客観確率という区別が、ベイズと頻度でなされることがあるように思いますが、今の僕の考えとしては、確率の考え方に認識論的な区別は必要ないだろうと思っています。不確実さを数学的に表現したらこうなりました、というだけの話で。

豊田先生は、ベイズのほうが自然に理解できる、と考えられていますが、僕はそうは思いません(これも直接お伝えしたことがある)。たぶんベイズも頻度も同様に確率はただの確率であって、ベイズだからと言って特段わかりやすくなったりはしないのではないかと思います。

余談です。ベイズ統計が主観確率だと言われた背景には、もともと確率モデルとパラメータを条件としたサンプルXが得られる確率から、その逆確率、つまりサンプルXを条件とした確率モデルのパラメータの確率を知りたい、という考えがあったのではないかと思います。それは、データから事前知識に基づいてパラメータを推論するという枠組みが、とても心理学的な営みに見えたのではないか、と。なので、ベイズのほうが自然に解釈できる(人間の推論に沿っている)と思われているのかもしれません。想像ですが。

統計学的な確率が、分析している側にとってどう解釈されるべきかを考えなければならないかどうかは意見が分かれるのかもしれません。僕は無理に現実的に解釈しなくてもいいのではないかと思っています。むしろ重要なのは、その確率がどういう仮定の下で示されているか、という点です。すなわち、統計で計算された確率は、常にあるモデルのもとでの確率であって、その前提について無自覚だと、実際にそれが起こる確率というような言い方がされてしまうということです。

結論

なので、これらを踏まえると、「仮説が正しい確率」という言葉は、仮説とは何か、正しいとは何か、確率とは何か、という意味で3重にややこしいなと思いました。

This entry was posted in 心理統計学. Bookmark the permalink.