頻度主義統計、ベイズ統計、統計モデリングからみた「真値」【追記あり】

 

【追記アリ】Twitterなどでいろいろご意見いただいたので追記を載せています。

2018年も終わりそうですね。僕は毎年29日に収まらない仕事を無理やり納めている感じです。

全然おさまってないけど、年末だし、なんか記事でも書いてみようと思ったので書いてみます。

Twitterでもよく議論に上がる、頻度主義とベイズ主義の違い、それに真値について書きます。真値ってなんだろうね。

よく95%信頼区間は、真値を95%の確率で含む範囲じゃないよ、と言われます。一方で、ベイズ信頼区間は真値を含む確率と解釈していいよ!という事も言われます(これはあとで言うように常に正しいわけではない)。こういうのをどう理解したらいいでしょうか。頻度主義とベイズでは真値の考え方が違うのでしょうか。

以下で論じることは、統計学に正しい話というより、こういう考え方を採用すればこうなるよね、という話で、「正しさ」がいくつか並列するような議論となります(たぶん)。「結局何が正しいの?」とか聞かれても「立場による」ということではないかと。科学的真実性とかそういう話じゃないですよ、ということで。

 

◆真値ってなんだろう

真値は統計学でよく出てくる言葉ですね。基本的には推定したい値のことを指します。推測統計学では、母平均とか母相関係数とかが推定した対象になるので、それらの値のことを、推定値と区別して、真値というわけです。

しかし、統計学では何を真の~と呼ぶかは、これまたいろいろ立場によって変わるんじゃないかと思います。どれがマジョリティとか、そういうのは僕はわかりません。

まず推測統計学といっても、いろんな考え方があります。今回の記事では、次の考え方を区別します。

1.母集団の要約統計量を真値とする → 大標本の理論

2.母集団分布が正規分布であるとみなして、その平均パラメータを真値とする → 小標本理論

3.母集団分布に確率モデルを仮定し、そのパラメータを推定する → 統計モデリング

1と2はともに心理学の統計の授業で習うものですが、この2つが厳密に区別されている教科書はそれほど多くありません。基本的にはt検定に持っていくので、小標本の理論から話を始めてもいいわけですが、その割には1の説明をしつつ2の実践を解説しているようなものもあります。

1と2の区別はとても重要だと思っていて、実は2と3はほとんど変わらないという見方もできます。これは、母集団というものをどう考えるか、という認識論的な話にも関わるかもしれません。

 

◆母集団の要約統計量を考える:実在母集団の仮定

心理学や社会学では、日本人集団、あるいは人類全部など、人の集団を母集団とします。社会学では国際比較でない限りは、母集団は日本の調査なら日本人、ということになると思います。わかりやすい。

たとえば日本人有権者のある政策への賛成率を推定したいとします。その場合、その気になれば、有権者全員に意見を聞くことは不可能ではない(厳密には非常に難しいけど)ことから、母集団の平均値である賛成率は、真の値を知ることは可能です。よって、母集団が実在すれば、その平均値も実在するため、正解がある、ということになります。正解があるけど、知るのは難しいから、推測します、というストーリーになるわけです。

母集団の要約統計量、とくに平均値は大標本の理論でスルッと推定できます。中心極限定理は、任意の母集団から得た標本平均が正規分布に収束することを保証してくれます。母分散もとりあえず大標本なら標本分散で代用してもだいたいOK!母集団の平均値は標本がそれなりに大きければ(30とか50以上?)区間推定が可能、というわけです。

回帰分析も基本的にはこの文脈で理解できます。母集団のデータ全部を使って線形回帰をした場合の回帰係数を真値とおく。これもまぁ真値を知ることは非常に困難だろうけど、母集団が実在してくれていれば、正解がどっかに存在するだろうことは言えます。それを推定したい。ガウス・マルコフの定理に従えば、母集団が任意の分布であっても最小自乗推定量がBLUEになることがわかってますので、推定がちゃんと可能です。

実在母集団を想定すれば、頻度主義統計学や帰無仮説検定は案外スルっと理解できます。有権者の賛成率が50%を超えているかを無作為に集めた200人の人から推定したい。データから信頼区間が0.56~0.70だった。この信頼区間はサンプルの変動で揺らぐけど、95%の信頼度で過半数を超えていそうだ。真値が実在しているので、とてもわかりやすい(ように僕には思える)。

しかしちょっと考えたらわかるように、母集団の実在性は結構怪しいものです。刻一刻と日本人は死んでたり、有権者も(誕生日を迎えれば)どんどん登場します。平均値は1秒毎にズルズルと変化するでしょう。実在はするけど、不変ではない。それを推定すると言われても、みたいな。

また、母集団が実在しないような場合でも推測統計学は使われています。たとえばコイントスをする場合。母集団は少なくともありません(表のコインと裏のコインがものすごい量床に落ちていて、それを拾う、という話ではない限り)。でも、確率的な法則に従って表、裏が出てくるので、そこには法則性があり、また推定すべき真値も想定できそう・・・ではあります。しかしそれは、やや理念的な存在になってきています。この点は、モデリングのところでまた触れます。

 

◆母集団分布が正規分布であるとみなして、その平均パラメータを推定する:小標本の理論

さて、心理学では実験をよくやるので、大標本がいつでも集められるわけではないです。そこで出てきたのが小標本の理論。t分布の発見です。ゴセットすごい。

小標本の理論では、母集団が正規分布に従っていれば、小さい標本でも正確な区間推定が可能となる。ここで、母集団分布に特定の確率分布の仮定が登場します。これは結構なジャンプです(と僕は思います)。今までは任意の分布でOKというか、分布という考えも特になくてよくて、人の集まりだったらよかったのが、いきなり確率分布の仮定が登場するわけですから。学部生が統計に躓くのはこのあたりじゃないかな、と僕は思っています。

これって結局は確率モデルを仮定していることなわけで、ここからはすべて統計モデリングの範疇である、といっても過言ではないですね。パラメトリックな方法、というのはパラメータで表現できる確率分布を使いますよ、という方法なわけですから。パラメータの日本語訳が母数、というのも、基本的にはパラメトリックな方法を前提とした訳ですよね。その意味で、大標本の理論は厳密に言えばパラメトリック法と言わなくてもいいんじゃないか、と僕は思ったりします(間違えてたら指摘してください)。

でも、小標本の理論は母集団が正規分布であると見做すのは強い前提のようなものとして考えられているような気もします。統計モデリングはあとで登場しますが、それらはどの分布を当てはめるか、という段階からスタートするので、前提の強さがちょっと違うかも。

さてさて、上の話からわかるように、小標本の理論での真値は、実は母集団の要約統計量ではないんです。正規分布の(平均)パラメータなんです。でも、もし母集団が正規分布なら、その要約統計量である平均値(確率分布の文脈で話をするなら、期待値)と、正規分布の平均パラメータは一致します。この一致はとても便利でいいんですけど、余計に母集団に確率モデルを仮定している、という話が区別されにくくなってるなーと思うわけです。

つまり何が言いたいかというと、小標本の理論では、真値は確率分布のパラメータにすり替わっています。ただ、母集団が正規分布であるというのを強めの前提としておいているため、大標本の理論の想定とそんなに違っているという感じはしないわけです。母集団の実在は、半分くらいは仮定されている感じもします。

推定方法も、多くの場合はモーメント法が使われていることから、尤度主義という感じではないですね。

 

◆母集団分布に確率モデルを仮定し、そのパラメータを推定する → 統計モデリング

統計モデリング、もうちょっと言えば、GLM,GLMMなどの文脈になると、母集団分布に確率分布を仮定する、というのがより強調されるようになります。

この強調点はとても重要です。統計モデリングの文脈では、「母集団分布がどういう分布であるかは厳密にはわからないが、我々がよく知っている確率モデルで表現できるとしよう」というわけです。あと、そもそもですが、統計モデリングでは母集団という言い方はあまりしないかもしれません。母集団と呼ぶような、測定対象の集合みたいなものが実在してない場合でも、そのデータの発生メカニズムが確率的なものであれば、確率分布で表現可能です。よって、統計モデリングは実在母集団を仮定しないより広範囲な現象をとらえることができる方法論であると言えるかもしれません。

この場合の真値ってなんでしょう。難しいですよね。そもそも母集団の実在を想定しないわけですから、母集団の要約統計量を真値とする、というのはなんだか変です。となると、想定した確率分布のパラメータを真値と見なしている、ということになります。しかし、そもそもどの確率分布を想定するかが研究者によって選択されていることから、それが真の値であるというのも違和感がありますね。

つまり、こういうことだと思います。統計モデリングではデータ生成が確率的であることを受け入れて、真の分布というものがあることは前提とします。しかし、それがどういうものであるかについては本当のところはよくわからない。なので、我々がよく知っている確率モデル(多くの場合はパラメータを持つ)を仮定するわけです。なので、真値という言い方はたぶん適切ではないでしょう。推定しようとしているパラメータはこちらが「仮にそういうものであるとすれば」というものでしかないからです。

具体例を挙げます。たとえば真の分布が二項分布だとします。つまり、Y ~ binom(N,theta)です。推定対象はthetaです。そこで確率モデルで正規分布を考えたとしましょう。Y~normal(mu, sigma)です。ここでの真値はthetaになるわけですから、muはどう考えても真値にはなりません(muはN*thetaに限りなく近くなるとは思いますが)。そして実際は真の分布がなにかはわかりません。はたしてmuの信頼区間に「真値」があるでしょうか。あるともないともいえないですね。そもそも名前も知らないような確率分布が真の分布だったら、どうしようもないですね。

とはいっても、統計モデリングでも真値という言葉はよく使います。どう理解したらいいでしょうか。僕の考えでは、モデルや推定法の性能評価のときにこの言葉が必要となります。分析手法や推定法の精度や妥当性といった性能を把握するためには、真の分布がパラメータを持った確率分布で実現できるという理想的な状況を考えた上で、そのパラメータを復元できるかどうかをチェックすることがあります。パラメータリカバリシミュレーションといいます。真の分布がそういう単純な場合ならちゃんと復元できますよと示すことで、仮に真の分布が何かわからなくてもそれに近似した予測分布なりを構築できることが示せます。そういうときには、真値という言葉は意味を持つと思います。

 

◆頻度主義統計学とベイズ統計学で真値の考え方は違う??

上の議論からわかるように、真値をどのように考えるかは、母集団の要約統計量を推定しようとする立場か、確率モデルを仮定し、そのパラメータを推定しようとするかで変わります。前者は真値と呼べるような値の実在性を直感できますが、後者ではそういう想定は難しいのではないかと思います。この差を僕は大きいと思っていますが、別にそうでもない、という人もいるとは思います。どっちの立場でも真値なんてない!という意見もありえると思います、どっちも真値だ!という考えもあるかと思います。そのあたりは科学観の違いだと思います。

僕は以前、ベイズ統計の資料で頻度主義統計では真値を仮定しているが、ベイズ統計ではそういう想定はしていない、と書きました。

心理学者のためのベイズ統計入門

 

また、黒木さんにTwitterでその点を指摘していただきました。

 

上の議論からわかるように、実はこの話は頻度主義かベイズか、という話ではなかったんですね。これを書いたときはよく理解できていませんでした。

頻度主義とベイズ統計の違いはいろいろあります。また、統計モデリングの文脈で考えるか、仮説検定の文脈で考えるかによっても、その違いは変わってくるようにも思います。

統計モデリングという文脈で話をするならば、ベイズ統計と頻度主義統計の考え方の違いは、単純にパラメータを確率的なものと考えるか否か、のみです。それ以外はほとんど同じに考えることができます。どちらもデータが確率変数だと想定しています、どちらも真の分布と確率モデルは区別していますから、真値というものの想定も変わりません。どちらも母集団という実在的な集団をとくに前提ともしていません。

ただ、上でも触れましたが、モデルの性能を評価するときにパラメータリカバリをやります。その場合は真値というものを仮定することができると思うので(実際にデータはそういうメカニズムで発生しているわけだし)、95%の確率(サンプリングの変動を考慮した意味で)で真値がその範囲に入るよね、ということは言えるのではないかと思います。

一方、実在母集団を前提とする大標本理論は、ベイズ統計で考えるのは難しいんじゃないかと思います。いや、これは僕もよくわからないです。

いまベイズ統計で最もきれいにまとまった体系は、僕が知っている限り、渡辺先生のベイズ統計の理論ではないかと思います。そこでは統計モデリングの文脈でベイズ推定がどういうものであるか、最尤法との違い、真の分布と予測分布の関係などが明確に書かれています。ぜひ1章だけでも読んでみてください。ざっくりいえば、ベイズ推測と最尤推測は、予測分布の作り方の違いであって、ほかはほとんど同じ文脈で理解することができることがわかります。

 

というわけで、みなさま良いお年を!

【追記】

みなさまあけましておめでとうございます(ここで?

黒木さんからコメントもらったのでそれへのリプライを。

 

僕は今回の記事で、真値をどう考えるか、という話題で話を書いてましたが、統計モデリング(とここではあえてしておきます)では、そもそも未知の分布を確率モデルで推定することであって、パラメータが何かを知ることが主眼ではないよ、というコメントです。そして、真のパラメータが何かということに縛られることが、真値とは何かということについての混乱が生じる原因ではないか、という指摘です。

僕はこの点については、「そうなのだ、その通りなのだ」と思う一方で、統計学を用いる社会科学の分野のディシプリンにおいてパラメータを考えるということがかなり重要視されているので、そうもなかなかいかない、という二つの感想を持ちました。この記事では文脈的に前者の点について追記し、後者の方は別の記事で書こうと思います(そっちは統計の話ではもはやない)。

 

◆予測分布を作る=パラメータが消去される

さて、僕は最近は統計モデリングを勉強していく中で、ああ、そうか、統計学というのは真の分布(それは本質的に何かはわからない)を不完全ながら確率モデルを使って近似する手法なんだ、というのがとても腑に落ちました。それはやっぱりAICの勉強をはじめたあたりからでしょうか。あと、渡辺先生のベイズ統計の理論を読み始めたあたりでしょうか。

情報量規準、とくにAIC(WAIC)によるモデル選択と、帰無仮説検定は、心理学や計量社会学では、あまりその背景をちゃんと理解せずに、なんとなく使い分けている感じであると思います(そんなことない!という人がいたらごめんなさい、少なくとも僕はそうでした)。しかし、AIC系の情報量規準とBIC系の情報量規準も考え方がやっぱり全然違うし、もちろん帰無仮説検定の考え方とも全然違います。心理学者向けの解説記事を、また時間ができたら書こうと思います。ちょっと難しめの記事としては以下の資料を以前に書きました。

 

スライドで書いていることは、AIC系の情報量規準とBIC系の情報量規準は見ているものが違うということ、そしてとくに階層モデルの場合は指標についての算出についても注意が必要、ということです。

あえてここで事前、事後、という言葉を使って区別すれば、(W)AICは事後予測分布によって将来得るだろうデータの予測誤差の小ささを、BIC(自由エネルギー)は事前予測分布によって今回得たデータの情報量(驚き)の小ささを評価している、ということです。どちらの予測分布もパラメータが周辺化されて消去されてるので、パラメータの解釈は(それぞれの目的に照らせば)不要です。AIC系の情報量規準は事後分布で積分消去され、BIC系では事前分布で積分消去されてます。

機械学習の分野ではおそらく予測精度が重要視されるので、AICやLOOなどでモデル評価がなされているんだと思います。仮説評価ではベイズファクター、つまり自由エネルギーの比較がよくつかわれる印象です。

というわけで「そうなのだ、その通りなのだ」という僕の中のモデリングハム太郎の結論としては、「統計モデリングでは予測分布が作れればOKなのだから、パラメータの真値なっていうものはそもそも考えなくていい」ということになるわけです。

 

◆次の記事に向けて

ではなぜ僕は真値の考え方についてこだわっていたのでしょうか。いや、やっぱり、今でもパラメータによって分析結果を解釈するという見方を完全に捨てるのは難しいなぁというのが正直な印象です。それは、おそらく僕が心理学者としてそういう教育を受けてきたからでしょう。それは、単に心理学が方法論的な教育が不十分であったこともあるでしょうけど、心理学がそういう学問であることが影響していると思います。これについての詳細は上述のように別記事で書きますが、学問分野によってはパラメータを無視することができないのだな、ということを今回の議論で再認識しました。

パラメータを無視できる分野として、上にも書きましたが、機械学習があると思います。それは予測精度に特化した統計モデルの使い方をしているからです。予測分布さえつくれればOK、という意味で個々のパラメータは解釈する必要はありません。これからデータサイエンスがどんどん注目を集めていくなかで、そういう使い方が主流になっていくのは(すでになってたらごめんなさい)間違いなさそうです。

僕の考え方が間違いでなければですが、予測の科学は、いうなれば天気予報の究極バージョンだと思います。予測の科学では、予測結果に対応することはできますが、その現象自体を変える(介入する)ことは難しいように思います。具体的には、すごい天気予報があれば明日雨だとわかれば傘を持っていくことはできますが、だからと言って晴れに変えることはまったく別問題だ、ということです。

機械学習は予測に特化している一方で、対象についての理解、そしてその理解に基づく介入方法については何も教えてくれません。それは、いわゆる因果推論のほうがもつ役割であると思います。

統計モデリングは機械学習だけではなく、統計的因果推論についてもある程度は包括していると思いますが、考え方が結構違っているのではないかという気がしてきています。心理統計学は、実験心理による因果推論の流れと、社会調査からくる推測統計学、そして精神物理学からくる統計モデリング、という3つの潮流が混ざっていて、それらの使い方が混ざってしまったことでパラメータ原理主義的なディシプリンができたのかな、というのが今の僕の考えです。続きは次の記事で。

あと、今回の記事ではちゃんとリプライできませんでしたが、大標本理論、小標本理論、パラメトリック、ノンパラメトリックについての詳細についてTarotanさんからコメント記事をいただきました。とても勉強になりましたし、僕も強引に区別しすぎたな、という反省をしております。ありがとうございました!

こちらもぜひお読みください。

古典統計学・ベイズ統計・統計モデリングの関係について

それでは、本年もよろしくお願いします。

 

This entry was posted in 心理統計学. Bookmark the permalink.