都道府県データで注意すべきこと

統計センターの公開するSSDSE(教育用標準データセット)をはじめ、都道府県単位のデータは入手が簡単です。これを使って「Xの多い都道府県はYも多い傾向がある」のようなことを調べると、意外なことがわかって、おもしろいようです。

しかし、そのXとYは、都道府県の規模(人口とか面積とか)にほぼ比例する量ではないでしょうか。例えば「○○の消費量」は人口にほぼ比例します。もしXもYもほぼ人口に比例するなら、XとYに相関があるのは当然ですね。こういう偽の相関関係を、人口が交絡因子となった擬似相関だと言うことがあります。

そういう自明なことを調べてもしかたがないので、例えば人口に比例しそうな量であれば、人口で割って、一人当たりの量に直してから考えましょう。

こうして(自明でない)相関関係を見つけたとして、自信を持って「相関がある」と言えるためには、相関係数0.3程度以上は欲しいところです。

ただ、相関係数で機械的に判断するのではなく、ちゃんと散布図を見て判断することが必要です。都道府県データは外れ値がよくあり、たった一つの例外的な都道府県が相関係数に強く影響していることもありえます。

また、XとYに相関があったとしても、Xを増やせばYは増える(またはYを増やせばXは増える)といった因果関係が成り立つとは限りません。さらに、個人データを集約して作った都道府県データや国別データの場合、Xが大きい都道府県はYも大きいということから、Xが大きい個人はYも大きいということは導けません。個人データと集約データでは相関関係が逆になることもあります。

極端な概念図ですが、横軸X、縦軸Yの散布図だと思ってください。A県の3人、B県の3人、C県の3人が描かれています。県を固定して個人を見れば、右上がりで、Xが増えればYも増えます。しかし各県の平均値を見れば、右下がりです。Simpsonのパラドックスの一形態です。

C C C B B B A A A

都道府県ごとに集約した値の傾向は、必ずしも(都道府県を固定したときの)個人の傾向と同じではありません。この区別を忘れて、前者から後者を結論づけてしまうことを、生態学的誤謬(ecological fallacy)といいます。この誤謬に陥らないよう、注意が必要です。