外れ値は捨てる?

高校で「外れ値は捨てる」と教えておられることがあるようです。「大学受験では除外することになっている」という説もあるようです。

駒場の実験の思い出は、化学の試料の何か平均値を求める作業で、外れ値があったからそれを除外(大学受験では除外することになっている)したら、えらい怒られ全部やり直しを命じられたこと。「その外れ値が測定ミスじゃなかったらノーベル賞かもしれないんだぞ。お前はその外れ値を捨てるのか?」と。

— OKUMURA, Akira(奥村 曉) (@AkiraOkumura) July 8, 2020

「外れ値は捨てる」ではなく、「外れ値は注目する」が正しいのです。

箱ひげ図を考案したテューキーは、箱ひげ図の箱の端から、箱の長さの1.5倍(inner fence)以上離れていれば外れ値としましたが、これは捨てるためではなく、注目するためです。テューキーはさらに箱の長さの3倍(outer fence)以上離れているものはもっと注目しました(John W. Tukey, Exploratory Data Analysis (1977), p.48):

箱ひげ図

都道府県人口のヒストグラムに書いたように、東京都の人口は47都道府県の人口の平均値から4σ以上離れています。完全に「外れ値」ですが、東京都を捨てるのはナンセンスですね。

都道府県人口のヒストグラム

「外れ値は捨てる」という説は、おそらく異常値(測定ミスや転記ミス)との混同から来たのだろうと思います。ただ、転記ミスは、元の資料に戻って修正するべきですね。

「外れ値は捨てる」と混同されやすいものに、trimmed mean(トリム平均,トリムド平均,調整平均,刈り込み平均)があります。これは上と下から同数の値を削除して残ったものの平均で、運動競技などの採点でよく使われます。捨てるのは「2σ以上」などではなく「上と下から同数」であることに注意してください。

この「上と下から同数捨てる」を押し進めて、1個または2個が残るまで両端から同数を捨てて残った値(2個残ればその平均)が「中央値」です。

極端な値に影響されにくい代表値を求めたいときは、外れ値を捨てるのではなく、中央値を使いましょう。

参考リンク