次の散布図は、都道府県ごとの、2021年度のNHK受信料支払率と、2022-08-12時点での人口100万人あたりの新型コロナ感染者数を表します(接種率とコロナ参照)。強い負の相関が見られます(r = -0.890)。NHK受信料の支払いを渋るとコロナになるのでしょうか?
相関(correlation)とは、散布図を描くと何らかのパターンが見えることです。もうちょっと具体的にいうと、変数 x の値に応じて y の分布が変わることです。これは、変数 y の値に応じて x の分布が変わることと同じです。つまり、相関は双方向の関係です。
相関は、直線的な関係でない U 字形の関係でもかまいません。通常の(Pearson の)相関係数は直線的な関係しか表さないので、相関係数が 0 でも、相関があることがあります。
変数 x と y に相関があっても、x が原因で y が変化したとか、y が原因で x が変化したとかは、必ずしもいえません。つまり、x と y の間に因果関係(原因・結果の関係)があるとはいえません。よく言われる「相関関係は因果関係ではない」という話です。
直接の因果関係がないのに相関関係がある場合、疑似相関(spurious correlation)ということがあります。
相関関係があるかどうかは散布図から簡単にわかりますが、因果関係があるかどうかは簡単にはわかりません。
例えば、朝食を食べてこない子どもは成績が悪いというデータがあったとします。
このデータからわかるのは、相関関係だけです。朝食を食べないのが原因で、その結果として成績が悪くなったのであれば、無理矢理でも朝食を食べさえれば、成績が伸びるはずです。でもそういう実験は簡単ではありません。
なぜ朝食をとらないと成績が悪くなるのでしょうか? もしかしたら
という関係があるのかもしれません。このような中間に介在する因子を媒介因子(mediator)といいます。こういう自明な媒介因子が介在していても、朝食と成績の関係を疑似相関とは言わないように思います。
もっと自明でない媒介因子が介在していたらどうでしょうか。例えば、上とは逆の因果関係
も考えられますが、これも疑似相関とは言わないように思います。
もっと疑似相関っぽいのは
のように第3の因子が両方に影響している場合です。このような因子を交絡因子(confounder)といいます。この場合、家庭環境が交絡しているといいます。これなら、疑似相関と言っても大丈夫そうです。
別の例として、
のような因果関係があり、サンプリングが C に依存する場合、A と B は直接の因果関係がないのに相関関係が現れます。C をコライダー(collider)といいます。例えば入試の得点(A)と内申点(B)を合計したもの(C)で入学選抜する場合、A と B は一般に正の相関をしているのに、合格者の中ではほとんど相関していなかったり、場合によっては負の相関になったりすることがあります。これはコライダーによるサンプリングのバイアスです。元の相関を疑似相関が打ち消す形になります。
なお、因果関係があっても、必ずしも相関関係があるとは言えません。交絡などがからむと、本来の因果関係による相関と疑似相関とが相殺される可能性があるからです(すぐ上の段落の例もそうです)。
もう一つ、疑似相関が因果関係による相関を打ち消して、因果関係があっても相関関係がほとんどなくなってしまう例を挙げておきます。新型コロナのワクチン接種をすると重症化が防げるはずです。しかし、高齢者ほど接種をしますし、高齢者ほど重症化しやすいので、高齢が交絡因子となって、接種と重症化に正の疑似相関が現れ、本来の因果関係から生じるはずの負の相関を打ち消してしまうことがありえます(イスラエルのCOVID-19データとSimpsonのパラドックス参照):
以上、いろいろな例を挙げましたが、疑似相関の定義は必ずしもはっきりしていないところがあります(そもそも因果関係がよくわからないケースもあります)。あまりこの言葉にこだわらないようにするのがいいかもしれません。
1897年に出版された Karl Pearson(カール・ピアソン)の Mathematical Contributions to the Theory of Evolution. — On a Form of Spurious Correlation which may arise when Indices are used in the Measurement of Organs. という論文が spurious correlation という言葉の最初の使用例らしいのですが、これは x1, x2, x3 が独立なのに x1/x3, x2/x3 は相関があるという現象を論じたものでした。両方に x3 が入っているので相関があるのは当然ですが、Pearson はどれくらい相関があるかを計算で示したのでした。
例えば、共同埋葬地の骨を個人ごとにグルーピングして並べ、正しくグルーピングされたかどうか調べるために、大腿骨/上腕骨の長さの比と、脛骨/上腕骨の長さの比との相関係数を求める例を Pearson は論じています。仮にグルーピングがランダムで、大腿骨・脛骨・上腕骨の長さが互いにまったく相関がなくても、比をとると疑似相関が現れるので、注意しないといけません。
ちなみに論文のタイトルは On a Form of Spurious Correlation ... ですし、この例だけを Pearson が spurious correlation と呼んだわけではなく、単なる一例として出したのでしょう。ですから、「spurious correlation の元来の意味は……」のように Pearson の例を挙げるのは🤔です。
Pearson の spurious correlation については Kendall’s Advanced Theory of Statistics, 6th ed., Vol. 2A, p.506 に解説がありますが、“He called ρ a ‘spurious’ correlation because the original xi are uncorrelated, but the term is inapt if one is fundamentally interested in the ratios.” と書かれています。元の変数に相関がなくても比には相関があるんだから「疑似」相関と呼ぶのは不適切だ、ということでしょう。
Spurious correlations という英語のサイトには、二つの時系列データが偶然に相関する例がいろいろ集められています。これらは上に挙げた疑似相関とはちょっと意味が違いますが、因果関係のない相関という点では共通しています。なお、時系列データの相関のところでも述べたように、時系列データは、自己相関があるので、もともと偶然の相関が生じやすいものです。同様の理由で、地理データも、やや相関が生じやすいといえます。