外れ値は捨てる?

高校で「外れ値は捨てる」と教えておられることがあるようです。「大学受験では除外することになっている」という説もあるようです。

駒場の実験の思い出は、化学の試料の何か平均値を求める作業で、外れ値があったからそれを除外(大学受験では除外することになっている)したら、えらい怒られ全部やり直しを命じられたこと。「その外れ値が測定ミスじゃなかったらノーベル賞かもしれないんだぞ。お前はその外れ値を捨てるのか?」と。

— OKUMURA, Akira(奥村 曉) (@AkiraOkumura) July 8, 2020

「外れ値は捨てる」ではなく、「外れ値は注目する」が正しいのです。

箱ひげ図を考案したテューキーは、箱ひげ図の箱の端から、箱の長さの1.5倍(inner fence)以上離れた値を“outside values”、箱の長さの3倍(outer fence)以上離れているものを“far out values”と呼び、それらの値には可能な限り次の図のようにラベルを書き込んで注目するようにしました(John W. Tukey, Exploratory Data Analysis (1977), p.48):

箱ひげ図

都道府県人口のヒストグラムに書いたように、東京都の人口は47都道府県の人口の平均値から4σ以上離れています。完全に「外れ値」ですが、東京都を捨てるのはナンセンスですね。

都道府県人口のヒストグラム

「外れ値は捨てる」という説は、おそらく異常値(測定ミスや転記ミス)との混同から来たのだろうと思います。ただ、転記ミスは、元の資料に戻って修正するべきですね。

「外れ値は捨てる」と混同されやすいものに、trimmed mean(トリム平均,トリムド平均,調整平均,刈り込み平均)があります。これは上と下から同数の値を削除して残ったものの平均で、運動競技などの採点でよく使われます。捨てるのは「2σ以上」などではなく「上と下から同数」であることに注意してください。

この「上と下から同数捨てる」を押し進めて、1個または2個が残るまで両端から同数を捨てて残った値(2個残ればその平均)が「中央値」です。

極端な値に影響されにくい代表値を求めたいときは、外れ値を捨てるのではなく、中央値を使いましょう。

[追記1] 情報Iの学習指導要領解説には「データの整理としては,データに含まれる欠損値や外れ値の扱いやデータを整理,変換する必要性を理解するようにする」などと書かれていますが、特にどうすればいいとは書かれていません。数学Iの学習指導要領には[用語・記号]として「外れ値」が明記されており、解説には「量的データには,他の値から極端にかけ離れたデータがあることがある。そのような値を「外れ値」と呼ぶ。外れ値は除外すべき値と捉えがちだが,その背景を探ることも大切である。測定ミスや入力ミスでなければ,そこに問題発見や問題解決の手がかりがあることもあるからである」「測定ミス・入力ミスなど原因が分かっているものは「異常値」とよび外れ値と区別する」などと書かれています。

[追記2] 高校現場における「探究活動」の過程における不正な行為への指導についてという記事に、高校生の研究不正の例として

問題④:実験結果にばらつきがあったので、明らかにおかしそうだと思った数値を除外して平均値を算出した。

を挙げ、「なかなか難しいのは問題④で、「外れ値は自分の感性に従って除去して良い」と考えてしまう生徒が意外と多いものです」と書かれています。

参考リンク