Webスクレイピングの例：新宿の放射線

東京都健康安全研究センターの環境放射線測定結果サイトで毎時間の空間放射線の測定値が公開されています。私の放射線関連グラフでもグラフを自動表示しています。

特に，新宿区百人町の健康安全研究センター屋上のモニタリングポスト（地上約18m）では，東日本大震災前から精密な値を測っています。2011年3月以降の値を当サイトの shinjuku.csv というCSVファイルに収めてあります。

shinjuku.csvの作り方

この場合は大量のデータといえるほどのものではありませんが，一般論として，大量のデータをダウンロードする場合には，配慮が必要です。例えばウィキペディアのウェブスクレイピングをご覧ください。偽計業務妨害容疑で逮捕され20日間勾留された有名な岡崎市立中央図書館事件（いわゆるLibrahack事件）の例もあります（これは図書館側に問題があったのですが）。

例えば2013年の全データ（第1週〜第52週）は http://monitoring.tokyo-eiken.go.jp/report/shinjuku/ の中の mon_air_week_2013XXw.html（XX = 01〜52）というファイルに収められています。これらを一括でダウンロードするには，UNIX系OS（Linux，Macなど）では，例えば次のようなコマンドで行います（Macではwgetをインストールしておくか，元々入っているcurlを使うように手直しします）。

「配慮」として，ここでは一つダウンロードするごとに sleep 1 で1秒待っています。某図書館のような問題を抱えたサイトでは，もっと待つ必要があるかもしれません。

中を見ると，実際のデータは次のような形で入っています。日時と，μGy/h単位の線量率の最大値・最小値・平均値です。Gy（グレイ）はほぼSv（シーベルト）と同程度の単位です（厳密には違います）。

無駄にインデントされていたり改行が入っていたりしますが，気にしないことにします。これを読んでCSVに出力するには，Rubyなら例えば次のようにできます。

これで ./hoge.rb * >x.csv のように出力し，sort x.csv >shinjuku.csv のように並べ替え，頭に datetime,max,min,avg のような列名を付ければ，完成です。

<td>([\d.]+)</td> を <td>(.*?)</td> としたところ，最大値・最小値が空で，平均値に「点検中」「停電中」のような文字列が入っているところも拾いました。それはそれでいいのですが，そもそも日時も入っていない欠測値もあるので，欠測値は無視する方向でまとめました。

<th>([\d/]+)\s*([\d:]+)[^<]*</th> を <th>([\d/]+)\s*([\d:]+).*?</th> にしたところ，.*? が最初の </th> の前で止まるかと思ったらそういうわけではなく，さらにその次の条件も満たす </th> までマッチしてしまい，間違った結果を出してしまいました。最小量指定子 .*? は必ずしも「ネストしていない括弧の対応を取るため」に使えない例です（参考：正規表現）。

なお，こんな簡単な場合はかえって煩わしいかもしれませんが，より一般的な方法として，Ruby の Nokogiri を使えば，次のようにできます。この例では，最新のデータを収めたURLから直接読み込んでいます。

#! /usr/bin/ruby
# -*- coding: utf-8 -*-

require 'open-uri'
require 'nokogiri'

url = 'http://monitoring.tokyo-eiken.go.jp/mp_shinjuku_air_data.html'

charset = nil
html = open(url) do |f|
  charset = f.charset
  f.read
end

doc = Nokogiri::HTML.parse(html, nil, charset)

doc.xpath('//tbody/tr').each do |tr|
  if tr.css('th').text =~ %r{\A([\d/]+)\s*([\d:]+)}
    print "#{$1} #{$2}"
    tr.xpath('td').each do |td|
      print ",#{td.text}"
    end
    puts
  end
end

欠測の詳細は環境放射線測定結果 - 新着情報に載っていますが，一番長いのは 2013/07/23 から 2013/07/25 のもので，次のように書かれています：

Rでプロット

Rで読んで解析するには，ここでは data.table と，そこで説明した fasttime を使うことにします。

ついでに 2013/07/23 の移設前の10日間もプロットしてみましょう。

あれ，事故前のレベルに戻ってしまいました。移設作業で除染されたのかな？

[2015-02-12追記] readHTMLTable()

ヘッダは，セル結合を使っているためか，うまく取得できません。日時は途中で改行 \r\n が入っています。再パースが必要ですが，かなり楽そうです。

[2015-12-30追記] rvest

Hadley Wickhamが rvest というWebスクレーピング用パッケージを作っています。

ちなみにrvest（アー（ル）ヴェスト）はharvest（収穫する＝scrapeする）の語呂合わせと思われます。

Webスクレイピングの例：新宿の放射線

はじめに

shinjuku.csvの作り方

Rでプロット

[2015-02-12追記] readHTMLTable()

[2015-12-30追記] rvest