変なグラフのオンパレード

誇張した棒グラフ

武雄市長と信者といんちきグラフ - Togetter は変なグラフのオンパレード。折れ線グラフは0から始まらなくていいと思うけれど,右のグラフなどはPISA「盗難事件」問題に使ってもらえそう。

ほかにも「錯覚立体円グラフに(さらに)データ配置マジック」が混ぜられた「Appleが見せたiPadシェア」が最近話題になった。あとは,すでにどこかに書いたような気がするが,フジテレビが不思議なグラフを作って印象操作、若者叩きを誘導かは何度見ても感動する。

Excel使うな:2010版

このブログにExcel使うなを書いてから4年近く経つ。Excel 2010についての続報を書きたかったのだが,なかなか材料が集まらない。

Guy Mélardが Computational Statistics and Data Analysis に “On the accuracy of statistical procedures in Microsoft Excel 2010” と題するペーパーをサブミットしたが,rejectされたという。PDFが彼の研究業績のページからリンクされている。結論として,Excel 2010の統計関数のいくつかは大幅に改善されたが,Data Analysis Toolpakは変わらず,統計グラフも改善されていないという。

一方,The American Statistician - Volume 65, Issue 4にはKellie B. Keeling and Robert J. Pavur, “Statistical Accuracy of Spreadsheet Software” というペーパーが掲載された。こちらはRも含めて統計関係の数値計算の精度を調べている。こちらの結論は,Gnumericが最優秀で,Excel 2010も2007に比べて大幅に改善されたという。

[2013-03-24追記] GoogleやMSなどのWeb版表計算ソフトもまだ駄目のようだ:Bruce D. McCullough, A. Talha Yalta, Spreadsheets in the Cloud - Not Ready Yet, Journal of Statistical Software Vol. 52, Issue 7 (Feb 2013) 参照。

データ集約は手作業でなく情報技術を使おう

震災関係の情報公開にいろいろ問題があることはすでにこのブログで何回か指摘している。以下はTwitterで@parasite2006さんに教えていただいたことを私の責任でまとめて私見を加えたもの。

まず検査機関が出したデータを自治体がきれいなPDF形式で報告する。次の例は青森県健康福祉部保健衛生課8月29日の文書

青森県健康福祉部保健衛生課の8月29日の文書

これを厚労省が手作業でまとめる。上の例は食品中の放射性物質の検査結果について(第173報)の「検査結果(PDF:136KB)」の最初の2行にある:

厚労省173報
最初の2行を一部拡大
厚労省173報拡大

ところが産地が青森県のはずが宮城県になってしまっており,検査機関が横浜検疫所のはずが青森県原子力センターになっている。さらに「流通品」は「と畜場」の間違い。手作業でまとめた際の誤記のようである。この例では検査結果(ND)そのものは正しいが,なかには放射性物質が検出されたのにNDと誤記したケースもあったという(現在は訂正済み)。

さらに,厚労省の担当者に間違いを指摘する手段が電話とファクスしかなく,指摘してもなかなか直らないことがあるようだ。

こういうきれいに罫線を引いた報告書を手作業で作るのではなく,情報技術を活用して,情報発生源で一度入力したら何度も再入力する必要がないシステムが作れないものか。例えば(財)食品流通構造改善促進機構がボランティアで運用している食品の放射能検査データサイトはすばらしい。ここは間違いもメールで指摘するとすぐ直してくれるという。上の例の誤りも訂正されている。

[追記] @parasite2006さんにいただいたコメント:「まとめが手作業にならざるを得ないのは、1)何を報告すべきか、2)どんな形式で報告すべきかが明確に統一されないまま見切り発車で検査がスタートしてしまったため、報告事項も形式もバラバラなのが実態だからです」「今時あらゆるデータベースにはデータ修正受付専用のメールアドレスかTwitterアカウントを用意してもらいたいものだと強く感じております。また新規登録データが自動的に機械可読の全件まとめに追加されるシステムも」

ちなみに食品の放射能検査データサイトは厚労省の報道発表資料の日報(「第○○○報」)PDFからデータを抽出されているようだが,セルの結合やセル内改行があるので機械的な抽出はけっこう面倒なはず。データ提供者はこういう無駄なことをやめて機械可読なデータを提供してほしい。

[2011-09-04追記] ND(not detected,不検出)とは検出限界未満または定量下限未満のことである。検出限界は測定誤差(σ)の3倍(3σ),定量下限はもっと大きく10σ程度とすることが多いらしい(上本道久,検出限界と定量下限の考え方)。あいまいなので例えば「<10」のように記してはどうか。統計処理のためには常に値±誤差がわかる書き方が望ましいが,そうでなければ例えば「<10」なら5と扱う。

[2011-09-12追記] すぐ上の追記で「ND」はあいまいなので例えば「<10」のように記してはどうかと書いた。ところが例えば 長野県 | 食品の放射能検査データ のページのように「ND」と「<50」が混在する場合,「NDは0で<50は50だ」と誤解されることがあるようだ。単なる「ND」が混在する場合は「ND(<50)」のように書くのがわかりやすいだろうか。

[2011-09-18追記] 八王子でアメリシウム241Amが検出されたというデマが一昨日あたりから回っている。詳細は 八王子市の土壌からアメリシウム241検出の報、でもどうしてα線でなくγ線で検出? - Togetter 参照。要は,Am-241の欄が「< 3.7」Bq/50gとなっていたのを,だれかが不等号「<」を消して転載し,さらにkg単位に直されて「74Bq/kgが検出された」とあちこちで報じられた。「< 3.7」のような書き方は一般的であるが,このような「脚色」に利用されることがあるので,注意が必要かもしれない。

[2011-10-05追記] 上の2011-09-04追記で,何なる「ND」ではなく「< 10」のような表記をしてほしいと書いたが,厚労省の今月あたりの報道発表資料の「食品中の放射性物質の検査結果について(第○○○報)」の「検査結果」(PDF)では,そのような表記になってきた。よかった。

[2011-10-06追記] すぐ上の追記に関して,今朝の朝日新聞朝刊(Web版:食品の放射性物質、下限値も明記 消費者の声に応える)に書かれていた。

[2011-10-09追記] すぐ上の追記に関する一次情報は厚生労働省から発出した通知(平成23年9月29日)の「食品中の放射性物質の検査結果について」(PDF)である。

グラフで見る大阪市

大阪市市政 グラフで見る大阪市~まちは大きく変わってきました~をご紹介いただいた。

ページ上部の大きな図は,省略線のあるものについては,とりあえず問題ないことにしておく(本当は0点が関係ないなら折れ線グラフを使うのが望ましいと思う)。

その下にある多数のグラフは,省略線がないが,縦軸をよく見ると0から始まっていない。

こういうグラフについては当ブログでも何度も取り上げたが,高木浩光さんが日常化するNHKの捏造棒グラフおよびその続編NHKの棒グラフ描画システムが機械的に世論を狂わせている可能性で指摘されて有名になったものである。

大阪市の場合,捏造というよりは,使ったソフト(おそらくExcel)のデフォルトの設定がそうなっていたのかもしれない。Twitterで@gnutar先生からいただいたご指摘:

MacのExcel2011とWinのExcel2010で試しましたが、データの差が小さくなると起点を変えるようです。100に対して83だと0始まり、84だと75始まり、87だと80始まり、てな具合です。「スマート」ですねぇ ^^;

@_oguraさんからも「手元のWin版Excel 2007とOpenOffice.org Calc 3.3.0でも同様の結果になりました」とご教示いただいた。さらに@gnutarさんからNumbers09も,@hon_no_mushiさんからWin版LibreOffice 3.4.0も同様であることをご確認いただいた。どうやら差が大きい方の1/6のところに敷居があるようだ(@gnutarさん)。そう単純でもないかもしれない(@jojiさん)。@_oguraさんが棒グラフの起点を0にするマクロを作ってくださった。

グラフについてはグラフの描き方の「基本的な考え方」にいろいろ書いた。統計教育についてはCE97のペーパー情報教育と統計(PDF)でも書いた。

[2011-08-16追記] 万能棒グラフというものを教えていただいた。冒頭で引用したグラフはまさに万能棒グラフだ。

学生は電子書籍にあまり興味がない?

Twitterに,学生は「みんな驚くほど電子書籍に関してネガティブな反応」「買ってる人も当然ながら皆無」といったツイートが流れていた。確かに電子書籍は読んだあとブックオフにも売れないし…。

うちの学生が今年1月にうちの大学生83人に対して行ったアンケートの結果は次の通りである。回答者の学部や学年は不明。

  • あなたは電子書籍を利用したことがありますか?→はい24,いいえ59
    「はい」→
    • どの端末で利用しましたか?(複数回答可)→パソコン7,ガラケー18,スマホ3,iPad 1(iPadは貸してもらって使ったとのこと)
    • 電子書籍を購入したことはありますか?→ある9,ない15
  • 電子書籍をこれからも(利用したことのない人はこれから)利用したいと思いますか?→とても利用したい12,やや利用したい49,どちらでもない16,あまり利用したくない3,全く利用したくない3
  • 政府は「2020年に全ての小・中学生に1人1台電子教科書を配布」という目標を掲げ、取り組んでいます。この取り組みで、子どもたちが電子教科書を使って勉強することについてどう思いますか?→とても賛成8,やや賛成43,どちらでもない17,あまり賛成できない12,反対3

SSS2011参加受付開始

瀬戸内

私もプログラム委員なので宣伝:8月18日(木)〜20日(土)の情報処理学会の情報教育シンポジウム SSS2011(Summer Symposium in Setouchi 2011)の参加受付が始まった。毎年Sの付く地名を探して開催するという凝ったシンポジウムである。ぜひ夏の瀬戸内をお楽しみください(写真:林敏浩先生)。

ほかに私の関係している今年度の行事:

  • 10月22日(土)TeXユーザの集い 2011
  • 来年2月4日(土)〜5日(日)情報処理学会コンピュータと教育研究会@三重大
  • 来年2月22日(水)〜23日(木)Moodle Moot@三重大

東電のCSV形式が突然変更された

7月1日から東電の電力使用状況データ(CSV形式)が変更された。これによって生じた騒ぎを報じた経済産業省情報プロジェクト室(@openmeti)のつぶやき:

  • 【電力アプリユーザ・開発者への注意喚起】明日7月1日から東京電力が提供するCSVデータの形式が変更となります。現在出回っているアプリが正常に動作しなくなる可能性がありますので、ご注意ください。(つづく) tepco.co.jp/forecast/index… (11/06/30 22:01)
  • 【電力アプリユーザ・開発者への注意喚起(つづき)】なお、現行の形式でのCSVデータは、7月7日までは、別のURLで提供されます。詳しくは、東京電力のリリースをご覧ください。 tepco.co.jp/forecast/index… (11/06/30 22:06)
  • 3時間ほど前に東電提供データの形式が変更となることへの注意喚起の案内をさせて頂きましたが、誠に遺憾ながら、既にリンク先の説明文が消えているようです。 RT @openmeti: 明日7月1日から東京電力が提供するCSVデータの形式が変更 tepco.co.jp/forecast/index… (11/07/01 1:52)
  • 未確認ながら、東電提供データの変更に伴い電力関係のアプリが正常に動かなくなったという情報も出てきています。改めて、電力関係アプリの開発者並びにユーザの方はご注意いただけますよう、宜しくお願い申し上げます。 11/07/01 2:23
  • 【電力アプリ開発者の皆さまへの参考情報】東電提供データの変更に関し、Yahoo!が提供している電力APIについては、新データへの対応が行われた模様ですので、Yahoo!のAPIを利用しているアプリについては、これまで通り利用できるものと考えられます。 (11/07/01 2:34)
  • 【情報提供のお願い】6月30日から7月1日にかけての東京電力提供CSVデータの形式変更により、開発されてきたアプリにどの程度影響があったのかを把握したく考えております。動かなくなった、あるいは、至急の対応を要した等の情報を @openmeti までお寄せいただけると幸いです。 (11/07/01 2:45)
  • お寄せいただいた情報は、経産省においてまとめた上で、東京電力に申し入れ、今後、データの形式変更を行う際には、十分な配慮を頂けるよう、改めて求めたいと思います。また、他地域の電力会社も続々とデータ提供を始めていますので、同様の混乱が起こらないよう、働きかけてまいりたいと思います。 (11/07/01 2:48)
  • 私どもとしても、アプリ開発を呼び掛けた立場として、大変責任を感じております。電力会社への働きかけにおいて最善の努力をしてまいります。 RT @Hongkongtram: 作れといっといてデータフォーマットを変えるとは、最低。 (11/07/01 3:35)
  • 経済産業省としては、事前にこのような事態が起こることも想定し、東京電力に配慮を求めていたにもかかわらず、結果としてこのような事態になってしまったことを深刻に受け止めています。また、電力データを利用したアプリ開発を呼び掛けた立場として責任を感じています。 (11/07/01 13:15)

つまり,東電は新形式のデータに切り替えたが,これを使ったアプリが一斉に誤動作することに気付かなかったようだ。経産省の指導で旧形式のものも7月7日まで提供することになったようだが,URLが違うので,結局はアプリを修正しないと正常に動作しない。

電力データは利用者が多かったため大騒ぎになった。実は,ほとんど騒ぐ人がいなかったようだが,放射線データの形式も突然変わったことがあった。福島第一原子力発電所構内での計測データで提供されているCSVファイルが,最初は例えばモニタリングカーの計測値が

2011/3/22,23:50,正門,233.8,0.01未満,北西,1.9

のような形式であったものが,突然

西門,2011/4/28,0:00,22.4,<0.01,曇り,E,2.9

のように変更されている。

データは機械も読むということを理解してほしい。

参考:データは自動処理可能な形で提供してほしい

福島県・東電の実時間放射線モニタを早く再開してほしい

福島県原子力センターが福島県のあちこちに設置するモニタリングポストは,放射線量がネットで実時間監視できるようになっていたが,震災のため3月12日で止まっていた。本来ならばすぐに復旧しなければならないはずのものが,3ヶ月も放置され,ようやく6月10日に修理された:

ところが,それから1週間たつのに,ネットで公開されているのは3月12日12:00時点で止まったままである。

東電もこのページの左下「モニタリングポスト測定値」のアイコンをクリックすると敷地境界上の8地点のモニタリングポストの表示がわかるようになっていたが,これも3月11日14:40で止まったままである。

これらがネットで再公開されれば,もし新たな爆発が起こっても,住民はいち早く状況を知ることができる。いっこうに修理されない,あるいは修理されたはずなのに公開されないのは,なぜだろうか。一刻も早く再開してほしい。

[追記] 6月10日に復旧した福島県原子力センターの環境放射能監視テレメータシステムのデータは,

によれば,すでに福島県のサイトで昨日から公開されていた:

リアルタイムではなく,きれいに罫線を引いたPDFファイルで公開してくれて,涙が出る。;_;

[2011-07-19追記] 福島県原子力センターのリアルタイムモニタがやっと復活した!

[2011-07-20追記] 東電の止まっているこのページの左下「モニタリングポスト測定値」のアイコンをクリックすると現れるページ(今どき珍しくフレームを使っているので容易にリンクできない)について,同じものが福島第一原子力発電所構内での計測データのページで動いているではないかというコメントをツイッターでいただいた。確かに同じように見えるかもしれないが,ここは1日に4回(おそらく東電本社の検閲を経て)更新されるページである。扉の開閉・ベント等の事象発生時に実時間で変化がわかるわけではない。

データは自動処理可能な形で提供してほしい

今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。

一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電所の現状について【午後0時00分時点】」を最後として,ここには載らず,新しく作られた福島第一・第二原子力発電所モニタリングによる計測状況というページからリンクされるようになった。トップページを見ていればわかることだが,ちょっと戸惑った。

東京電力で提供されるモニタリング結果はすべてPDFで,ワープロに手打ちしているようで,小数点がコンマになっているところや午前と午後が間違っているところがいくつかあり,酷い場合はμSv/hがSv/hになっていたり,「0」が「お」になっていたりする。

福島第一原発データの誤記

こういった誤記は私も目視でざっと確認しているつもりだがなかなか気づかず,ツイッターで教えていただいて修正している。

また,東電のデータは最初は古い順であったが,途中から新しい順に変わっている。私のExcel/CSVファイルは古い順で統一している。

東電に次いで重要なのが文科省の東北地方太平洋沖地震関連情報のデータである。いろいろあるが,私はとりあえず都道府県別環境放射能水準調査結果をExcel/CSV化している。これもきれいに罫線を引いて作表されているが,そんなことはどうだってよく,できるだけ早く公表され,簡単にグラフを描いたり解析したりできる形であることが重要なはずだが,よくわかってもらえていないようだ。特にひどかったのは「平成23年3月19日(土曜日)13時00分版」というPDFファイルで,MacのPreviewでうまく数値が取り出せないのでAdobe Readerで開くとファイル名の横に「(保護)」と出る。コピペすると "*"#( といった記号の列になる。幸い,単純な換字暗号であり,次のUNIXコマンドで復号することができた。

tr "*\"!#$%&'()\037" ".0123456789"

文科省はわれわれがデータを取り出して再利用していることを快く思わなかったのかと邪推したが,より新しいデータはコピー可能に戻ったので,単なる保存ミスだったのかもしれない。

これらは何とか工夫すればデータを取り出すことができるのでまだましである。原子力安全・保安院に至っては,「地震被害情報(第◯◯報)…及び現地モニタリング情報」といった形で情報公開しているが,プリントアウトしたものをスキャンした画像PDFで,OCRにでもかけないと数値を取り出すことはできない。何か理由があってこういう意地悪をしているのか,あるいは単に情報リテラシーがないだけなのか,不明である。

こういった非効率的な処理をしているため,データが公表されるまでの時間が長すぎる。実時間でモニタリングできる仕組みを作ってほしい。奇抜な例として,線量率計がTwitterで位置情報付きで「20μSv/hなう」などとつぶやくようにすれば,モニタリングカーに積んで走るだけでデータがだれでも実時間収集できる。それを集めて見やすい形で公開するサイトを作るのは簡単である。

ほかにもこの大震災で情報リテラシーの欠如から来る問題点がいろいろ見えてきたので,何かの機会にまとめるつもりである。

[2011-03-21追記] ついに東京電力福島第一・第二原子力発電所モニタリングによる計測状況で公開されている最新PDFファイルがデータ抽出禁止になったようだ:

東電の原発PDFがコピー禁止

[2011-03-29追記] その後の経緯をまとめておく。

まず,放射線関連で公開されているPDFファイル等からデータを抽出して視覚化・解析するプロジェクトが全国に広まり,その現状が「放射線モニターデータのまとめページ」radmonitor311にまとめられている。ここでも「各方面から東電・文科省などへ機械可読データ提供の要望を出し続けましょう」と訴えている。東電はあいかわらずPDFの文書アセンブリ・内容のコピー・ページの抽出等を「許可しない」にしている。

また,当ブログへのコメントで教えていただいたが,LASDECも国民へ発信する重要情報のファイル形式についてというページでPDFやExcel形式でなくHTML・JPEG・CSV等を使うよう呼びかけている。

あと,pdftotextは-rawスイッチで表組みを乱さずにテキスト抽出できる。このコマンドはLinuxディストリビューションに入っていると思うが,MacでもLinuxでも簡単にソースからコンパイルできる(http://oku.edu.mie-u.ac.jp/~okumura/linux/?Xpdf)。

[2011-03-31追記] 経産省も東北地方太平洋沖地震等に係る情報提供のデータ形式についてで「極力PDF等自動処理がしにくいデータ形式のみによらず、htmlやcsv等の自動処理に適したデータ形式を併用したり、別途オープンな情報提供APIを整備するなど」を経団連会員企業に呼びかけた。

[2011-04-03追記] PDF to Excel というサイトでPDFを無料でExcel形式に変換してくれるようだ。文科省のPDFはこれでうまくいくということである。メールアドレスを打ち込まなければならないので要注意。

[2013-04-23追記] PDF to Excel Free Online というサイトも紹介していただいた。どなたか比較記事を書いていただけたらありがたい。

[2011-04-06追記] 東京電力が放射線量測定データを「使いづらく」している理由 - ガジェット通信で取り上げていただいた。東京電力からの回答も載っている。必見!

ツイッターでxdoc2txtを紹介していただいた。Windows上のソフトで,PDF・Word・Excel・一太郎などからテキストを抽出できる。東電のPDFにも使えるとのこと。

[2011-04-12追記] たくさんのかたの応援のおかげで,ついに東電がCSVでデータを提供し始めた。「ダウンロード」と書いてあるものがCSVをZIPで固めたもの。

[2011-04-14追記] 経済産業省情報プロジェクト室 @openmeti の昨夜のつぶやきによれば「東京電力の放射線データのCSV化については、情報経済課が東京電力と調整を行いました。」とのこと。

[2011-04-14追記] 文科省の都道府県別環境放射能水準調査結果も今日からExcel版が出ることになった(ページ下のリンク)。

[2011-06-12追記] 追記するのを忘れていたが,私自身の描いたグラフはTwitterで随時流していたが,5月28日ごろから放射線関連グラフというページで(ほぼ)自動更新のグラフを提供し始めた。

[2011-08-16追記] 文科省の放射線モニタリング情報は8月8日にURLが変わり,都道府県別環境放射能水準調査結果の主たる形式はPDFからHTMLに変わった。Excel形式もなくなるのかと思ったら,掲載が続いているようだ。6月末ごろから外部サイトによるCSVデータも提供されているが,今後も継続されるようだ。Excel化・CSV化されるのは遅いので,HTMLからスクレーピングするのがよいだろう。毎日のHTMLのURL(128文字!)の最後の数字の部分に規則性がなさそうなので,自動取得はまだ手をつけていない。とりあえずブラウザからExcelにコピペすれば表形式はほぼ保たれるようだ。そのうち私のところで保存するCSV形式も見なおした上で自動取得にしたい。

空集合の記号

@munepixyz さんが「空集合を \emptyset ではなく、「\phi」と入力してくるTeX原稿が結構ある。なんでやろう? #TeX」とつぶやいておられたので,ちょっと調べてみた。

まず,Unicodeの ∅ (EMPTY SET, U+2205) は,多くのフォントでは円+斜め45度の線の字形だが,ゼロ+斜線の字形もある。

TeX以前の本をいくつか調べてみた。

『岩波数学辞典』第3版はϕ(ファイ)に近い字形:

『岩波数学辞典』第3版の空集合の記号

『岩波情報科学辞典』も同様:

『岩波情報科学辞典』の空集合の記号

KnuthのFundamental Algorithms第2版はゼロに斜線:

empty set symbol, Knuth, Fundamental Algorithms, 2nd ed.

小松勇作編『数学 英和・和英辞典』(共立,1979年)は3通り載せている。2番目のものはまったくのϕ(ファイ)である:

『数学 英和・和英辞典』の空集合の記号
コンテンツの配信