この記事は、2019年Stanアドベントカレンダー5日目の記事です。
12月5日の今日、『社会科学のためのベイズ統計モデリング』がAmazonや紀伊国屋で発売されていると思います。
この本は、ベイズ統計モデリング全般についての解説書です。しかし同時にStanを用いたモデリング事例についても書いているので、Stanアドベントカレンダーで宣伝させてもらおう、と思ったわけです。
著者の紹介
私も著者の一人なのですが、私が貢献している部分は実はほんのちょっとで、ほとんどは第一著者の浜田さん、第二著者の石田さんによって書かれている本です。というわけで、僕は広報を精一杯がんばろうと(
第一著者の浜田宏さんは東北大学所属の数理社会学者です。数理的に社会現象を説明する研究をされていて、「格差のメカニズム」という専門者を書かれています。あと、最近、「その問題数理モデルで解決します」がヒットしたので、ご存知の方も多いと思います。
続いて、第二著者の石田淳さんも数理社会学者で、関西学院大学での同僚でもあります。相対的剥奪についての数理・計量的な分析をされています。以下の『相対的剥奪の社会学』が代表的な著作です。
お二人とも社会学者ではありますが、がっつり数理に強い方々です。
ついでに第三著者の僕は社会心理学者で、普段は計量的な分析をしています。あと、統計分析オタクでして、統計ソフトを作ったりしました。詳しくはこのブログでプロフィールや業績を見ていただければと思います。
想定読者
「まえがき」にもあるように、次のような読者を想定しています。
・社会科学系の学部上級生から大学院生
・データ分析に関心のある研究者
・データサイエンスに関心のあるビジネスパーソン
・統計ソフトは使えるけど、理屈がわからなくてモヤモヤしている人
などです。
統計モデリングは、データサイエンスの分野でももちろん広がっていますが、心理学や社会学では今まさに、そしておそらくこれから経済学や政治学の分野でも、その重要性が論じられています。これまでデータ分析をプロとして使ってきた人はもちろんのこと、そしてこれから社会科学の研究をやっていきたい学部生や院生にこそ読んでもらえたらと思っています。
本書の特徴
「まえがき」から一部引用します。
世の中にはすでに統計学の良書が存在しています。しかし、統計モデルのつくりかたを解説した書籍はあまり多くはありません。ですから本書は、現象を統計に基づくモデルで表現し、分析する方法に焦点を当てて解説します。本書では、自分の手でモデルを考えて、作る方法を学びます。
このように本書は、ベイズ統計モデリングの基礎から解説し、社会科学的な事例を紹介しながら、社会科学でモデルを作って検証することの意義、面白さなどを伝えることを目的に書かれました。
本書の特徴を挙げるとすると・・・
1.統計モデリングの考え方を基礎から解説
2.最尤法、ベイズ法の原理、MCMCについて丁寧に説明
3.モデル評価のための指標についてその定義と計算方法を解説
4.社会学、経済学的な事例を挙げながら、実際にモデルをどうやって作っていくかについて解説
5.Stanコードとデータをすべて(章によっては一部)を公開しているので、実際に読者が同様の分析ができる
などが挙げられると思います。
本書を読むことによって、確率やベイズ統計の基礎、統計モデリングの考え方、モデル評価指標の意味と使いどころ、社会科学におけるモデルの作り方、などを学習することができます。また、それらをできるだけ数学的に定義し、丁寧に導出過程を示しながら(あまり高度になりすぎないよう)解説することを心がけています。
一方で、本書では機械学習に該当するモデルについてはほとんど何も書いていません。データを分類・予測するというよりは、社会科学的なデータ生成メカニズムにせまるためのモデリングに焦点を当てています。
また、サポートサイトがGithubにあります。こちらからRやStanのコードをダウンロードできます。
本の概要
目次は、朝倉書店のWebページで確認できます。
本書は大きく分けて、2つのパートに分かれています。
第1パート:確率、確率分布、モデリング、モデル評価についての基礎
0章、1章~7章
第2パート:実際に確率モデルを作る・推定する・モデルを評価する
8章~12章
第1パートでは、赤池先生からはじまる「情報量統計学」をベースに、東工大の渡辺先生の「ベイズ統計の理論と方法」なども踏まえながら、統計モデリングの考え方を基礎から解説しています。順番に定義などを確認しながら読むほうが理解が進むと思うので、できれば1章から順番に読み進めてもらえればと思います。特に、6章と7章はモデル評価に関する部分で、ここまで丁寧に解説したものは、和書ではあまりなく、本書の特徴にもなっていると思います。
第2パートは、社会科学的な研究事例をまとめたものです。8章は最初に読んでほしいですが、それ以降は興味のある章から読んでもらって大丈夫です。一部、数学的に難しい部分もあるかもしれませんが、それらは多少飛ばしても理解できると思います。数学が苦手な方は第2パートから読んでもらっても楽しめると思います。
加えて、Appendixとして、確率測度の考え方について簡単な解説があります。1章を読んでもうちょっと知りたい!という方はぜひ読んでみてください。
前提とされる知識
「まえがき」にも書いていますが、本書ではある程度の数学的・統計的知識を前提としています。
・高校~大学1年レベルの微分・積分
・高校~大学1年レベルの確率・統計(平均、分散、回帰分析など)
・統計ソフトRとそのパッケージRstanの使い方の基礎
数式については、正直言って文系研究者にとっては結構難しいところもあります。しかし、導出過程を展開ごとに説明を加えているので、ゆっくり丁寧に追いかけていけば、十分理解できると思います。
本書を読んで「数式の理解ができない!」という方はさきに次の本を読んで学習しておくといいと思います。
この本の微分、積分、確率あたりの章を勉強してみてください。なお、本書を読むのに、線形代数の知識は必要ありません。
本書のメッセージ
本書の隠れた(隠れてない)メッセージとして、安易にGLMのような線形モデルに変数つっこんで推定して終わり、ではなくて、ちゃんと理論からモデルを立てよう!というものがあります。多少モデル評価がGLMよりも悪くても、ちゃんと前提から導出したモデルのほうがインプリケーションが豊富で、どのようにモデルを改良すべきかも理解できます。
社会科学のための~というタイトルには、「社会科学者は線形モデルばっかりじゃなくて、モデルを作って研究しようよ!」ということを伝えたい気持ちが表れています。
各章の紹介
いかに、各章の概要と、数学レベルについて記しておきます。なお、数学レベルは文系の研究者を想定したものです。
0章 イントロダクション ☆☆☆☆☆
モデルを作ることの意味をざっくりイメージしてもらうための章です。
1章 確率分布とデータ ★☆☆☆☆
確率や確率分布について定義しながら解説しています。真の分布とサンプルの考え方もここで触れていて、統計モデリングの基本的な考え方を理解できます。浜田さん的にはもっときっちり書きたかったようですが、紙面の問題もあって、その想いはアペンディックスに回りました。
2章 確率モデルと最尤法 ★☆☆☆☆
最尤法を使って統計モデルを推測する方法を解説しています。最尤法を理解することで、この後のベイズ法の理解もしやすくなると思います。ただ、すでに統計モデリングについて知っている人は飛ばしてもいいかもしれません。
3章 確率モデルとベイズ推測 ★★☆☆☆
この章では、同時確率分布、周辺分布などの定義から、ベイズ推測を解説します。この章をしっかり理解できれば、6章の情報量規準についての理解がスムーズです。一見、積分記号がたくさん出てきますが、形式的な演算しかしていないので、本書の1章の定義からしっかり読んでいけば理解できると思います。
4章 MCMC ★★★☆☆
MCMC(マルコフ連鎖モンテカルロ法)について解説しています。4.4節ではメトロポリス・ヘイスティング法についてかなり詳しく解説されています。ここまでわかりやすく丁寧に書いている本はほかにはないと思います。ただ、文系の人には少し難しい部分もありますが、本章にも書いてあるように、この部分が数学的に理解できなくてもあとの章の理解には影響しないので安心してください。
5章 モデリングと確率分布 ★★★★☆
いろんな確率分布を紹介する章です。しかし、それらをバラバラに紹介するのではなく、前の分布から次の分布を導出し、相互の関係がわかるように書かれています。もちろん全部数式が追えなくて問題ありません。それぞれがちゃんと関係しあっていることを理解できれば、モデリングの楽しさも伝わるかなと思います。
6章 エントロピーとカルバックライブラー情報量 ★★★★★
モデル評価の指標を理解するための前提と、汎化損失やベイズ自由エネルギーの定義について書かれています。これらのモデル評価指標が、情報量という観点から定義されていることが理解できると、それらの類似点と相違点も理解できます。数学の表記が難しそうなところもありますが、概念的に理解できればOKです。
7章 モデル評価のための指標 ★★★★☆
簡単なモデルを例に、具体的に自由エネルギーと汎化損失を推定するための指標である、WBIC、ブリッジサンプリング、WAICを計算します。また、MCMCを用いてこれらを計算する方法についても解説します。これらの推定方法が、実際に自由エネルギーや汎化損失の近似になっているかについても、簡単にシミュレーションをして確かめています。
8章 データ生成過程のモデリング ★★☆☆☆
第2パートの最初です。実際にモデルをどうやって作っていくかを解説しています。Stanを使った簡単なベイズモデルの推定例、分布を組み合わせる事例、そして微分方程式によるモデルとGLMの比較などを行ってモデリングすることの意味を説明します。
9章 遅延価値割引モデル ★★☆☆☆
行動経済学、心理学で使われる統計モデリングの事例です。遅延価値割引そのものの学習としても読んでもらえますが、単にデータに当てはまる「アドホックなモデル」で満足するのではなく、その背後のメカニズムをもう少し突っ込んで考えるという研究事例として楽しんでもらえればうれしいです。
10章 所得分布の生成モデル ★★★☆☆
この章では、理論的仮定から確率分布自体を導出し、そこから豊富なインプリケーションを得るという、数理社会学のお手本のような研究事例が紹介されています。統計モデリングは確率モデルは既存のものを使って、パラメータの構造を作るイメージがあるかもしれませんが、確率分布自体も導出できることの興奮を味わってもらえればと思います。
11章 収入評価の単純比較モデル ★★☆☆☆
本章では,収入に対する主観的評価の生成メカニズムを「トイモデル」と呼ばれるとても単純な仮定から導出したモデルを用いて分析していきます。トイモデルはデータとの適合ではなく、現象の本質だけを抜きだし、データの生成のメカニズムを表現することを重視しています。このトイモデルを徐々に複雑にしていくことで、社会学的な現象の理解が深まっていくことを目指します。
12章 教育達成の不平等 ★★★☆☆
最後の章では、教育社会学的なリサーチクエスチョンに基づき、大学進学の機能についてモデリングします。ここでも、データへのフィッティングよりも、そのモデルの前提がどれほど明確化されているか、モデルからどれほど豊富なインプリケーションが得られるか、という観点が重視されています。
Appendix 確率論の基礎
確率を確率測度という観点から定義する、現代確率論の基礎について解説します。1章の内容をさらに深く理解することができます。