政治資金データ
ラポール・ジャパンから政治資金データのCSVファイルが公開されている。shikin_data.zip をダウンロードして展開すると,SJISとUTF-8のCSVファイルが出てくるので,Rで読み込んでみる。
shikin = read.csv("shikin_data_utf8.csv", fileEncoding="UTF-8", as.is=TRUE)
summary(shikin)
政治家 報告書名 対象年 収入総額
Length:1999 Length:1999 Min. :2014 Min. : 0
Class :character Class :character 1st Qu.:2014 1st Qu.: 1831568
Mode :character Mode :character Median :2014 Median : 13699563
Mean :2014 Mean : 25675979
3rd Qu.:2014 3rd Qu.: 38246712
Max. :2014 Max. :392871358
……略……
とりあえずタイピングを楽にするため,主要な列を取り出しておく:
n = shikin$政治家
# 政治家の名前head(n)
[1] "青山 周平" "青山 周平" "赤松 広隆" "赤松 広隆" "荒木 清寛" "池田 佳隆"
s = shikin$収入総額
head(s)
[1] 36896515 23211567 153443703 3445847 672217 0
政治家の名前は複数出現するので,ユニークな名前だけにする。
u = unique(n)
length(u)
[1] 671
head(u)
[1] "青山 周平" "赤松 広隆" "荒木 清寛" "池田 佳隆" "伊藤 忠彦"
[6] "今枝 宗一郎"
ユニークな名前について,収入総額を集計し直す。
t = sapply(u, function(x)sum(s[n==x]))
head(t)
青山 周平 赤松 広隆 荒木 清寛 池田 佳隆 伊藤 忠彦 今枝 宗一郎
60108082 183880578 9586548 109602955 72589067 122498395
head(sort(t, decreasing=TRUE))
安倍 晋三 亀井 静香 竹下 亘 小沢 一郎 伊達 忠一 丹羽 雄哉
562866655 427624422 427337518 420027499 355661871 350146479
安倍晋三氏は5億6286万6655円といったことがわかる。
hist(t/100000000, col="gray", breaks=50, xlab="収入総額(億円)", ylab="人数", main="")
余談: House makes spending data available in easy-to-use format (2016-06-01): 米国でもSunlight Foundationというところが米国の支出明細をずっとPDFからCSVに変換して公開してきたが,とうとう国がCSVで公開するようになったという話。As a data analyst the best data repositories are the ones with the least features も参照。