外れ値は捨てる?

「外れ値は捨てる」と教えておられることがあるようです。

これは逆で、「外れ値は注目する」が正しいのです。

箱ひげ図を考案したテューキーは、箱ひげ図の箱の端から、箱の長さの1.5倍(inner fence)以上離れていれば外れ値としましたが、これは捨てるためではなく、注目するためです。テューキーはさらに箱の長さの3倍(outer fence)以上離れているものはもっと注目しました(John W. Tukey, Exploratory Data Analysis (1977), p.48):

箱ひげ図

都道府県人口のヒストグラムに書いたように、東京の人口は47都道府県の人口の平均値から4σ以上離れています。完全に「外れ値」ですが、東京を捨てるのはナンセンスですね。

「外れ値は捨てる」という説は、おそらく異常値(測定ミスや転記ミス)との混同から来たのだろうと思います。ただ、転記ミスは、元の資料に戻って修正するべきですね。