欠測値は平均値で置き換える?

欠測値(欠損値)は平均値で置き換えるという誤解があるようです。『欠測データ処理』の著者、高橋将宜先生のツイートを紹介します。

予測モデルの精度を上げるためであっても,欠測値を平均値で代入処理することは一切お勧めしません.添付の図のとおり,予測値yhat2は実測値y1に対して一列になってしまうので,MCARであっても,平均値代入法で予測モデルの精度は下がります.(1/2) https://t.co/gMP3q0Q4VJ pic.twitter.com/pmFpnNuLtH

— 高橋将宜 Masayoshi Takahashi (@M123Takahashi) May 15, 2023

『統計検定データサイエンス基礎対応 データアナリティクス基礎』(日本能率協会マネジメントセンター)という書籍に,代入法について「欠測部分に平均値を入力して補う方法が代表的」とあって,「やれやれ」という感じです.日本のデータサイエンスを20年後退させる記述はしないで欲しいものです. pic.twitter.com/AUm0JMSCBl

— 高橋将宜 Masayoshi Takahashi (@M123Takahashi) June 6, 2023

正しい欠測データ処理についての判断はたいへん難しいので、上記の高橋先生の本を読んで勉強するしかありませんが、欠測値のある行を削除するのが一つの方法です。

統計解析ソフトにデータを入力するときは、欠測値は NA という文字列ないしは空白にしておき、デフォルトの欠測値の扱い(通常は削除)をすればよいでしょう。