データ集約は手作業でなく情報技術を使おう

震災関係の情報公開にいろいろ問題があることはすでにこのブログで何回か指摘している。以下はTwitterで@parasite2006さんに教えていただいたことを私の責任でまとめて私見を加えたもの。

まず検査機関が出したデータを自治体がきれいなPDF形式で報告する。次の例は青森県健康福祉部保健衛生課8月29日の文書

青森県健康福祉部保健衛生課の8月29日の文書

これを厚労省が手作業でまとめる。上の例は食品中の放射性物質の検査結果について(第173報)の「検査結果(PDF:136KB)」の最初の2行にある:

厚労省173報
最初の2行を一部拡大
厚労省173報拡大

ところが産地が青森県のはずが宮城県になってしまっており,検査機関が横浜検疫所のはずが青森県原子力センターになっている。さらに「流通品」は「と畜場」の間違い。手作業でまとめた際の誤記のようである。この例では検査結果(ND)そのものは正しいが,なかには放射性物質が検出されたのにNDと誤記したケースもあったという(現在は訂正済み)。

さらに,厚労省の担当者に間違いを指摘する手段が電話とファクスしかなく,指摘してもなかなか直らないことがあるようだ。

こういうきれいに罫線を引いた報告書を手作業で作るのではなく,情報技術を活用して,情報発生源で一度入力したら何度も再入力する必要がないシステムが作れないものか。例えば(財)食品流通構造改善促進機構がボランティアで運用している食品の放射能検査データサイトはすばらしい。ここは間違いもメールで指摘するとすぐ直してくれるという。上の例の誤りも訂正されている。

[追記] @parasite2006さんにいただいたコメント:「まとめが手作業にならざるを得ないのは、1)何を報告すべきか、2)どんな形式で報告すべきかが明確に統一されないまま見切り発車で検査がスタートしてしまったため、報告事項も形式もバラバラなのが実態だからです」「今時あらゆるデータベースにはデータ修正受付専用のメールアドレスかTwitterアカウントを用意してもらいたいものだと強く感じております。また新規登録データが自動的に機械可読の全件まとめに追加されるシステムも」

ちなみに食品の放射能検査データサイトは厚労省の報道発表資料の日報(「第○○○報」)PDFからデータを抽出されているようだが,セルの結合やセル内改行があるので機械的な抽出はけっこう面倒なはず。データ提供者はこういう無駄なことをやめて機械可読なデータを提供してほしい。

[2011-09-04追記] ND(not detected,不検出)とは検出限界未満または定量下限未満のことである。検出限界は測定誤差(σ)の3倍(3σ),定量下限はもっと大きく10σ程度とすることが多いらしい(上本道久,検出限界と定量下限の考え方)。あいまいなので例えば「<10」のように記してはどうか。統計処理のためには常に値±誤差がわかる書き方が望ましいが,そうでなければ例えば「<10」なら5と扱う。

[2011-09-12追記] すぐ上の追記で「ND」はあいまいなので例えば「<10」のように記してはどうかと書いた。ところが例えば 長野県 | 食品の放射能検査データ のページのように「ND」と「<50」が混在する場合,「NDは0で<50は50だ」と誤解されることがあるようだ。単なる「ND」が混在する場合は「ND(<50)」のように書くのがわかりやすいだろうか。

[2011-09-18追記] 八王子でアメリシウム241Amが検出されたというデマが一昨日あたりから回っている。詳細は 八王子市の土壌からアメリシウム241検出の報、でもどうしてα線でなくγ線で検出? - Togetter 参照。要は,Am-241の欄が「< 3.7」Bq/50gとなっていたのを,だれかが不等号「<」を消して転載し,さらにkg単位に直されて「74Bq/kgが検出された」とあちこちで報じられた。「< 3.7」のような書き方は一般的であるが,このような「脚色」に利用されることがあるので,注意が必要かもしれない。

[2011-10-05追記] 上の2011-09-04追記で,何なる「ND」ではなく「< 10」のような表記をしてほしいと書いたが,厚労省の今月あたりの報道発表資料の「食品中の放射性物質の検査結果について(第○○○報)」の「検査結果」(PDF)では,そのような表記になってきた。よかった。

[2011-10-06追記] すぐ上の追記に関して,今朝の朝日新聞朝刊(Web版:食品の放射性物質、下限値も明記 消費者の声に応える)に書かれていた。

[2011-10-09追記] すぐ上の追記に関する一次情報は厚生労働省から発出した通知(平成23年9月29日)の「食品中の放射性物質の検査結果について」(PDF)である。