データは自動処理可能な形で提供してほしい

今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。

一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電所の現状について【午後0時00分時点】」を最後として,ここには載らず,新しく作られた福島第一・第二原子力発電所モニタリングによる計測状況というページからリンクされるようになった。トップページを見ていればわかることだが,ちょっと戸惑った。

東京電力で提供されるモニタリング結果はすべてPDFで,ワープロに手打ちしているようで,小数点がコンマになっているところや午前と午後が間違っているところがいくつかあり,酷い場合はμSv/hがSv/hになっていたり,「0」が「お」になっていたりする。

福島第一原発データの誤記

こういった誤記は私も目視でざっと確認しているつもりだがなかなか気づかず,ツイッターで教えていただいて修正している。

また,東電のデータは最初は古い順であったが,途中から新しい順に変わっている。私のExcel/CSVファイルは古い順で統一している。

東電に次いで重要なのが文科省の東北地方太平洋沖地震関連情報のデータである。いろいろあるが,私はとりあえず都道府県別環境放射能水準調査結果をExcel/CSV化している。これもきれいに罫線を引いて作表されているが,そんなことはどうだってよく,できるだけ早く公表され,簡単にグラフを描いたり解析したりできる形であることが重要なはずだが,よくわかってもらえていないようだ。特にひどかったのは「平成23年3月19日(土曜日)13時00分版」というPDFファイルで,MacのPreviewでうまく数値が取り出せないのでAdobe Readerで開くとファイル名の横に「(保護)」と出る。コピペすると "*"#( といった記号の列になる。幸い,単純な換字暗号であり,次のUNIXコマンドで復号することができた。

tr "*\"!#$%&'()\037" ".0123456789"

文科省はわれわれがデータを取り出して再利用していることを快く思わなかったのかと邪推したが,より新しいデータはコピー可能に戻ったので,単なる保存ミスだったのかもしれない。

これらは何とか工夫すればデータを取り出すことができるのでまだましである。原子力安全・保安院に至っては,「地震被害情報(第◯◯報)…及び現地モニタリング情報」といった形で情報公開しているが,プリントアウトしたものをスキャンした画像PDFで,OCRにでもかけないと数値を取り出すことはできない。何か理由があってこういう意地悪をしているのか,あるいは単に情報リテラシーがないだけなのか,不明である。

こういった非効率的な処理をしているため,データが公表されるまでの時間が長すぎる。実時間でモニタリングできる仕組みを作ってほしい。奇抜な例として,線量率計がTwitterで位置情報付きで「20μSv/hなう」などとつぶやくようにすれば,モニタリングカーに積んで走るだけでデータがだれでも実時間収集できる。それを集めて見やすい形で公開するサイトを作るのは簡単である。

ほかにもこの大震災で情報リテラシーの欠如から来る問題点がいろいろ見えてきたので,何かの機会にまとめるつもりである。

[2011-03-21追記] ついに東京電力福島第一・第二原子力発電所モニタリングによる計測状況で公開されている最新PDFファイルがデータ抽出禁止になったようだ:

東電の原発PDFがコピー禁止

[2011-03-29追記] その後の経緯をまとめておく。

まず,放射線関連で公開されているPDFファイル等からデータを抽出して視覚化・解析するプロジェクトが全国に広まり,その現状が「放射線モニターデータのまとめページ」radmonitor311にまとめられている。ここでも「各方面から東電・文科省などへ機械可読データ提供の要望を出し続けましょう」と訴えている。東電はあいかわらずPDFの文書アセンブリ・内容のコピー・ページの抽出等を「許可しない」にしている。

また,当ブログへのコメントで教えていただいたが,LASDECも国民へ発信する重要情報のファイル形式についてというページでPDFやExcel形式でなくHTML・JPEG・CSV等を使うよう呼びかけている。

あと,pdftotextは-rawスイッチで表組みを乱さずにテキスト抽出できる。このコマンドはLinuxディストリビューションに入っていると思うが,MacでもLinuxでも簡単にソースからコンパイルできる(http://oku.edu.mie-u.ac.jp/~okumura/linux/?Xpdf)。

[2011-03-31追記] 経産省も東北地方太平洋沖地震等に係る情報提供のデータ形式についてで「極力PDF等自動処理がしにくいデータ形式のみによらず、htmlやcsv等の自動処理に適したデータ形式を併用したり、別途オープンな情報提供APIを整備するなど」を経団連会員企業に呼びかけた。

[2011-04-03追記] PDF to Excel というサイトでPDFを無料でExcel形式に変換してくれるようだ。文科省のPDFはこれでうまくいくということである。メールアドレスを打ち込まなければならないので要注意。

[2013-04-23追記] PDF to Excel Free Online というサイトも紹介していただいた。どなたか比較記事を書いていただけたらありがたい。

[2011-04-06追記] 東京電力が放射線量測定データを「使いづらく」している理由 - ガジェット通信で取り上げていただいた。東京電力からの回答も載っている。必見!

ツイッターでxdoc2txtを紹介していただいた。Windows上のソフトで,PDF・Word・Excel・一太郎などからテキストを抽出できる。東電のPDFにも使えるとのこと。

[2011-04-12追記] たくさんのかたの応援のおかげで,ついに東電がCSVでデータを提供し始めた。「ダウンロード」と書いてあるものがCSVをZIPで固めたもの。

[2011-04-14追記] 経済産業省情報プロジェクト室 @openmeti の昨夜のつぶやきによれば「東京電力の放射線データのCSV化については、情報経済課が東京電力と調整を行いました。」とのこと。

[2011-04-14追記] 文科省の都道府県別環境放射能水準調査結果も今日からExcel版が出ることになった(ページ下のリンク)。

[2011-06-12追記] 追記するのを忘れていたが,私自身の描いたグラフはTwitterで随時流していたが,5月28日ごろから放射線関連グラフというページで(ほぼ)自動更新のグラフを提供し始めた。

[2011-08-16追記] 文科省の放射線モニタリング情報は8月8日にURLが変わり,都道府県別環境放射能水準調査結果の主たる形式はPDFからHTMLに変わった。Excel形式もなくなるのかと思ったら,掲載が続いているようだ。6月末ごろから外部サイトによるCSVデータも提供されているが,今後も継続されるようだ。Excel化・CSV化されるのは遅いので,HTMLからスクレーピングするのがよいだろう。毎日のHTMLのURL(128文字!)の最後の数字の部分に規則性がなさそうなので,自動取得はまだ手をつけていない。とりあえずブラウザからExcelにコピペすれば表形式はほぼ保たれるようだ。そのうち私のところで保存するCSV形式も見なおした上で自動取得にしたい。

OCRは読んDEが使いやすい http://ai2you.

OCRは読んDEが使いやすい

http://ai2you.com/ocr/product/koko13/function.asp

お気持ちは解りますが、私はそういう厄介なデータでも、真摯に

お気持ちは解りますが、私はそういう厄介なデータでも、真摯にヒューマンエラーを読み解くことができるかどうかを、信頼できる人かどうか、の判断の一つの判断材料にしています。

よき教材が多すぎちゃって

測定値データをわかりやすく表示していただきありがとうございます。機械可読データでという切望、この機会に多くの方に届くとよいと思います。
PDFでというのはある種のサービスなのだろうと思いたいのですが、ご指摘のようにリテラシーの欠如です。職場のメールでも「xxxについては変更となりました」とわざわざ書いた上でWord文書が添付され、開いてみるとテキストだけの文書というのがほとんどです。最初からテキストをコピペしてメール本文にするという配慮がないのです。情報の信用性とか正確さとはまるで違う次元なのですが、仕事レベルでもこうした現状です。
原子力保安院の取り扱い、不合格じゃなくて成績評価対象外ですね。

他にも平時なら時刻表でいつも困ります

この地震の直後にJRのダイヤ改正があり、連動してバスなども改正しました。我が家の場合家最寄りバス停が2箇所あって、3社局6系統のバス時刻表を「手動マッシュアップ」した特製のものを毎年作る羽目に陥っています。まぁだいたいは軽微な改正なのですぐ終わるんですけど、時刻表を標準化したXMLか何かでHPで配る文化が醸成されればマッシュアップでいろんなものを作る人が増えると思います。バス会社はekitanが自分の会社を扱ってくれないと嘆く前にちゃんとデータで出しちゃうべきです。

計画停電予定表がpdfってどうか

詳細データを解析しようという人は自分でなんとかできるだろうからまだいいが
一般人が必要とする計画停電予定表がpdfしかない(今はexcelもあるが)のには唖然・茫然
プラグインって何?という一般人には(また多分携帯でも)見れないだろうから、人間可読ですらない

情報リテラシーが役立つもうひとつの側面

詳しい分析と提案、興味深く読ませていただきました。

情報を受け取る側の利便性もさることながら、
情報を発信する側が大変な人的コストをかけてしまっているという点も容易に想像できます。
一度だけならばともかく、複数回の情報発信、定期的に更新する必要がある場合に、
情報発信・加工が容易であれば、それだけ他のことに人的リソースをかけられるわけですから、
情報リテラシーを発信受信双方に育てることが重要であると思います。

現場の方々の活動には頭がさがる思いですが、これで様々な問題点改善点が認識され、
今後に生かされることを願います。

情報処理技術に長けた人材を多数抱えているはずの文科省や東電

情報処理技術に長けた人材を多数抱えているはずの文科省や東電ですらこの有様だというのが寂しいところです。

しかし、このような例は、程度の差はあれ、本職のIT技術者の間にも存在します。たとえば、アプリケーションのログファイルに、機械的に集計しにくいような書式でデバッグ情報や性能情報を出力するなど。

コンピュータを使うのは人間だけではなく、コンピュータがコンピュータを使う場合もあるのだ、という認識を、もっと多くの人に持ってもらう必要があるのでしょう。

Excelで自動処理可能な形…

卒業生@Excel互換ソフト開発従事者

Excel形式で「自動処理可能な形」を提供するのであれば、Excelの表示形式という機能を使うべきだと考えます。
セル値に単位まで入力せず、単位は「表示形式」で表示させます。

例:
"123μSv/h"(文字列)ではなくセル値は123(数値)で入力し、セルの書式設定-表示形式でユーザー定義で
[<=999]0.0 "μSv/h"; 0.0, "mSv/h"
を設定する。

時刻も同様、シリアル値で入力して表示形式を適用すべきと考えます。

Re: Excelで自動処理可能な形

私のExcelファイルが「範囲指定してグラフウィザードボタンを押してもグラフにならない」という意味でのお叱りであれば,こういう変換は2段階に分けて考えるべきだというのが答えです。
まずは東電で提供されているPDFファイルそのままの機械可読なファイルを作る。校正が楽ですし,元ファイルが修正されても追随しやすい。これが私がやっていることです。
次に,それを自動処理でExcelなり何なりで処理のしやすい形にする。これは簡単です。ExcelのVBAを使ってもいいですし,私のCSVファイルをRubyやPythonで処理しているかたもおられます。そういう形にしたものを公開されているかたもおられます。
なお,Excelに限らなければ,私はRでグラフを描いていますが,このままのCSVを読み込んでグラフにすることができます。

テキスト書き出しの件

http://www.unlock-pdf.com/
PDFの一部権限(テキスト書出し等)を解除するwebアプリのようです。
東京電力のファイルを指定したところ、書き出せるようになりました。

Re: テキスト書き出しの件

ありがとうございます。
私は別の手を使っていました。
あまり書くと先方に対応されると困るので…^^;

PDFのセキュリティは途中から東電がかけたのですね。自分で

PDFのセキュリティは途中から東電がかけたのですね。自分でも抽出をやってみようとしてできなかったので、どうされているのかと思っていました。東電は改変などを気にしてかけたのでしょうが、PDFのみの提供で、コピー禁止はちょっとないですよね。ホームページでグラフ化しているわけでもないし。

福島第一の分だけ使用させていただいて、加工して公開してみました。

pdfunlock.com

http://www.pdfunlock.com/ というサイトもTwitterで教えていただきました。いろいろあるようですね。

東電が電力使用量データをCSVで提供開始

電力の使用状況グラフ
http://www.tepco.co.jp/forecast/index-j.html
のページの下の方から,
電力の使用状況データのダウンロード
http://www.tepco.co.jp/forecast/html/images/juyo-j.csv
としてCSV形式でデータを提供するようになりました。
やればできるじゃん>東電
ぜひ放射線データ等もCSVで。

国民へ発信する重要情報のファイル形式について

財団法人地方自治情報センター(LASDEC)のサイトに、
「国民へ発信する重要情報のファイル形式について」
https://www.lasdec.or.jp/cms/12,22060,84.html

というページがあります。

既にご存知かとも思いましたが、念のため…

東電はともかく…

 ご承知の通り、文部科学省も、原子力安全・保安院も行政機関ですから、なぜ機械可読形式で公開しなかったのかという理由を情報公開制度を用いて問い合わせれば(理論上は)理由を回答してくれる筈です。

 ただ、情報公開制度は、どのような資料を公開してもらうのかの要求を巧く考えないと的確な資料が提供されないこともまた、ご存知かと思います。(POWは具体的なノウハウを持ち合わせていないので、具体的なサジェッションができず申し訳ありません。)

>ほかにもこの大震災で情報リテラシーの欠如から来る問題点がいろいろ見えてきたので,何かの機会にまとめるつもりである。

鳩首しております。(_ _)

LASDECの通知

LASDECがこんな通知をしていたとは知りませんでした。

CSV形式の説明がちょっと変とかは置いておいて,妥当な通知だと思います。ぜひ各自治体はこれに従ってほしいところです(LASDECはお願いはできても何の権限もないでしょうけれど)。

ところで,タブ区切りテキストで*.tsvという拡張子を使ったものがありますが,MacではXcodeに関連付けられているようです。Windowsではどうでしょうか。

Excelでタブ区切りで保存すると*.txtになり,それはテキストエディタに関連付けられていると思います。Excelで開いてほしい人は*.csvが一番いいのでしょうか。

Windowsでは、拡張子tsvには何のアプリケーションも

Windowsでは、拡張子tsvには何のアプリケーションも関連付けされていません。

Apache HTTPDなどでは拡張子tsvにMIMEタイプtext/tab-separated-valuesが対応するようになっていますので、一応は妥当性のある拡張子だと思うのですが…。

ダブルクリックするとExcelで開かれることを期待するのであれば、確かにcsvがいいかもしれません。

放射線量取得APIを公開しました。

おっしゃるとおり、公開情報、「とりあえず公開してますよ!」というとこどまりで、再利用を念頭においてないものも多いですね。。せめてHTMLで公開してあれば再利用もしやすいのだけれども、、、。

他のウェブサービスで利用可能なように、文部科学省原子力安全課原子力環境防災ネットワークで公開されている放射線量をJsonで取得できるAPIを公開しました。
http://gotton.net/blog/?p=966

10分おきにデータ取得を行っています。
過去のデータも取得できるので、うまいこと利用して下さい。

Re: 放射線量取得APIを公開しました。

ありがとうございます!

元情報は…

LASDECでは無いようですね。「当センター関係団体より情報提供いただきましたので、(略)」とあるところを見ると…

 まぁ、「本記事は、被災して情報を取得することが困難な状況にある地方公共団体に向け、お知らせするものです。」というところはイカガナものかとは思いますが…

追記:鳩首ではなく鶴首でした。申し訳ありません。

セキュリティ設定

急いで作ったWebや、サービスのセキュリティ設定が甘いサイトがあるようです。
乗っ取られて、デマ拡散というのはまずいので、
基本的な設定だけは、チェックしておいた方がいいように思います。
それにしても、官邸から出てくるデータが、スキャン画像というのは
何とかならないもんでしょうか。

放射線MAP

文部科学省の各都道府県別放射線モニタリングデータのPDF→CSV形式への変換及びデータ公開に感謝致します。奥村晴彦教授のmext.csvを使用させて頂きまして、「放射線MAP」を作成しました。

Re: 放射線MAP

どうもありがとうございますm(__)m

MacのアプリでPDFKey

MacのアプリでPDFKey Proというのがあるのですが、どんなPDFのロックでもドラッグアンドドロップで解除出来ますよ。東電の保護されたファイルでも試してみましたがバッチリでした。
ファイルによってはMacOS付属のプレビュー.appで開けないことがあるのですが、ロックを外した後のファイルはなぜか開けるようになるので大変重宝しています。(Adobe Readerは起動が遅いので出来ればプレビュー.appを使いたい)

Re: MacのアプリでPDFKey

ありがとうございます。
http://pdfkey.com/
ですね。今度もし開けないものがあったら試してみます。

ちょっと古い情報ですが…

政府統計をWeb API経由で提供、総務省がコンソーシアム発足
http://www.atmarkit.co.jp/news/201112/16/mic.html

Web APIだけでも一般の人が自由に使えるようにすればいいのにぃ…
システムがうまく出来ても運用に一抹の不安が ^^;

Re: ちょっと古い情報ですが…

ありがとうございます。
こんな話があったのですね。

デジャブ(笑)

Internet Watch の以下の記事を読んでここでの話を思い出した、らしい。

「パチンコガンダム駅」はなぜ生まれたか? Apple地図騒動の本質とは
http://internet.watch.impress.co.jp/docs/special/20121212_577659.html

<引用>3.11の時に、弊社が電力メーター出しましたけど、あの時最初は画像で来てたみたいで。なので、データでくださいって言う間、放っておくわけにも行かないので、エンジニアが画像のピクセル位置から解析してそこから数字を抜いてデータに起こすというプログラムを書いてしのいでいたらしいです(笑)
</引用>

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。