α係数と級内相関係数

えっと、先日、級内相関係数についてコメントをいただいていたのですが、僕が間違えた返答をしていることに気付きました。

1- MSW/MSB

（ただし、MSWは水準内の平均平方、MSBは水準間の平均平方）
という式を展開すれば、いわゆる通常の級内相関の式である、

(MSB-MSW) / (MSB+(n-1)MSW)

と一致する、というコメントをしていました。そしてそれは間違いでして、一致しません。
正確には、前者の式はα係数の算出式ですね。早とちりしてしまい、「同じ」だと答えてしまいました。申し訳ありません。というか、もうこのブログを見てない可能性が高いですが･･･。
なお、HAD3（およびHAD4)では後者の指標として級内相関係数を算出しています。そして、確認しましたが、プログラムについてはミスはありませんのでご安心を。また前者の指標のα係数についてもHAD3で出力します。「級内α係数」として表示しているのがそれです。

さて。これを期にα係数と級内相関の違いについて解説することで、上記のミスの償い(?)になればと思います。
長くなるので、続きは下記に。

　さて、α係数とは尺度の信頼性の中で、内的一貫性を評価する指標です。内的一貫性とは尺度項目が一貫して誤差なく概念を測定しているか、という指標です。

信頼性のそもそもの定義は、

真の分散/尺度得点の分散

であり、測定誤差の少なさをあらわすものです。

　さらに余談ですが、妥当性は「意味内容的に」誤差がないもの、と僕は把握しています。つまり信頼性が高いからといって妥当性が高いとは限りません（「測りたいもの」を測ってるかはわからない）。しかし信頼性が低いと妥当性も同時に低いのです（測定誤差は「測りたいもの」ではありえない）。
　つまり、「その尺度で測りたいものを測っているか」というのが妥当性なら、「その尺度で測っているものにゴミははいってないか」というのが信頼性なのです。ゴミが多けりゃ妥当性は絶対に低いですよね。なお、妥当性を評価する指標はありません。余談終わり。

　α係数の定義は、「尺度の因子負荷量がすべて等しいと仮定したときの、尺度平均値の分散中の全尺度項目が一貫して測定している分散の割合」、と僕は把握しています。α係数が「下限の推定値」といわれるのは、前半の、つまり「尺度の因子負荷量がすべて等しい」という仮定があるからです。ついでに、因子分析結果を反映して、負荷量を重みづけた内的一貫性の指標をω係数といいます。

　そして、級内相関係数の定義は、「尺度の因子負荷量がすべて等しいと仮定したときの、全尺度項目の分散中の全尺度項目が一貫して測定している分散の割合」となります。これは、因子負荷量がすべて等しいと仮定したときの、第一因子の寄与率と一致します。つまり第一因子の固有値（の割合）ですね。

　下線部分がα係数と級内相関を分けるポイントとなるわけですが、重要なのは「項目数の影響をうけるかどうか」です。α係数は項目数が多ければ多いほど高くなります。それは尺度平均値の誤差が項目数に応じて小さくなることを考えれば納得できると思います。級内相関係数は「第一因子の寄与率」ですから、項目数が増えようと高くなるとは限りません。どれだけ全項目中で一貫した分散があるか、を表しているからです。

　こういった理由から、尺度構成法においては平均値を主に指標として使うため、α係数がよく用いられるわけです。ω係数があまり使われないのは、「昔、因子分析をするのが大変だった」という理由以外にないと思います。今の時代ではそういった制約がないので、ω係数を使うべきなのですが、習慣というか、まぁそういうやつですよ。

　なお、階層的データ分析の文脈ではα係数ではなくて、級内相関係数を見るべきです。それは、集団内人数に依存せずに集団内のデータの類似性を評価できるからです。つまりメンバーを項目だと考えればいいわけですね。「集団とは人間関係マトリックスの固有値である」とかいう有名な言葉があるそうですが、階層的データ分析においても当てはまってるわけですね。やっぱり集団は固有値なんです(笑)。

　僕がHADで「級内α係数」という造語を使っているのは、数式的にはα係数だけど、ちょっと意味が違うよ、というメッセージなんです。紛らわしいですね。はい。説明すると、「集団メンバーの得点を平均すると、どれだけ誤差が入るか」を示す指標なんです。

　もし間違いなどがありましたら、ご指摘お願いします。

Sunny side up!

α係数と級内相関係数

2 thoughts on “α係数と級内相関係数”