未婚の男は短命、未婚の女は長寿、と言われている。本当か?
e-Statの人口動態調査の確定数→死亡→年次で、本稿執筆時点で一番新しい2020年の「中巻」→「15歳以上の死亡数,年齢(5歳階級)・性・配偶関係別」の「CSV」をクリックすると、c070000.csv というCSVファイルが落ちてくる。これは、15〜19歳、20〜24歳、……、95〜99歳、100歳以上の18階級について、男女・配偶関係(配偶・未婚・死別・離別)ごとに、死亡数を並べたものである。まずこれを読み込む:
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("c070000.csv", encoding="CP932", skiprows=5, header=None, na_values="-", names=["階級","総数", "男総数","男有配偶","男未婚","男死別","男離別","男不詳", "女総数","女有配偶","女未婚","女死別","女離別","女不詳"]) df.fillna(0, inplace=True)
とりあえずグラフを描いてみる。男女でスケールを同じにする。
for s, m in zip(["男有配偶","男未婚","男死別","男離別"], ["o-","s-","^-","v-"]): plt.plot(range(15, 105, 5), df[s], m, label=s) plt.ylim(0, 135000) plt.legend(loc="upper left")
for s, m in zip(["女有配偶","女未婚","女死別","女離別"], ["o-","s-","^-","v-"]): plt.plot(range(15, 105, 5), df[s], m, label=s) plt.ylim(0, 135000) plt.legend(loc="upper left")
男より女の死別がはるかに多いことがわかる。これは男女の寿命の違いが原因である。
当然ながら、死別者の死亡年齢は高い。配偶者と死別したから寿命が延びたわけではなく、配偶者より長寿だったから死別したのである。生存バイアスの一種である。
グラフの下のほうに注目しよう:
plt.ylim(0, 14000)
未婚・離別の男の死亡ピークはいずれも70〜74歳だが、未婚・離別の女の死亡ピークはそれぞれ90〜94歳・85〜89歳で、ピーク位置がかなりずれている。男は配偶者がいないと早く死に、女は配偶者がいないと長生きするのだろうか? ほかに解釈はないか?
→ R版
Last modified: