政治資金データ

ラポール・ジャパンから政治資金データのCSVファイルが公開されている。shikin_data.zip をダウンロードして展開すると,SJISとUTF-8のCSVファイルが出てくるので,Rで読み込んでみる。

shikin = read.csv("shikin_data_utf8.csv", fileEncoding="UTF-8", as.is=TRUE)
summary(shikin)
    政治家            報告書名             対象年        収入総額        
 Length:1999        Length:1999        Min.   :2014   Min.   :        0  
 Class :character   Class :character   1st Qu.:2014   1st Qu.:  1831568  
 Mode  :character   Mode  :character   Median :2014   Median : 13699563  
                                       Mean   :2014   Mean   : 25675979  
                                       3rd Qu.:2014   3rd Qu.: 38246712  
                                       Max.   :2014   Max.   :392871358  
……略……

とりあえずタイピングを楽にするため,主要な列を取り出しておく:

n = shikin$政治家  # 政治家の名前
head(n)
[1] "青山 周平" "青山 周平" "赤松 広隆" "赤松 広隆" "荒木 清寛" "池田 佳隆"
s = shikin$収入総額
head(s)
[1]  36896515  23211567 153443703   3445847    672217         0

政治家の名前は複数出現するので,ユニークな名前だけにする。

u = unique(n)
length(u)
[1] 671
head(u)
[1] "青山 周平"   "赤松 広隆"   "荒木 清寛"   "池田 佳隆"   "伊藤 忠彦"  
[6] "今枝 宗一郎"

ユニークな名前について,収入総額を集計し直す。

t = sapply(u, function(x)sum(s[n==x]))
head(t)
  青山 周平   赤松 広隆   荒木 清寛   池田 佳隆   伊藤 忠彦 今枝 宗一郎 
   60108082   183880578     9586548   109602955    72589067   122498395 
head(sort(t, decreasing=TRUE))
安倍 晋三 亀井 静香   竹下 亘 小沢 一郎 伊達 忠一 丹羽 雄哉 
562866655 427624422 427337518 420027499 355661871 350146479 

安倍晋三氏は5億6286万6655円といったことがわかる。

hist(t/100000000, col="gray", breaks=50, xlab="収入総額(億円)", ylab="人数", main="")
政治資金

余談: House makes spending data available in easy-to-use format (2016-06-01): 米国でもSunlight Foundationというところが米国の支出明細をずっとPDFからCSVに変換して公開してきたが,とうとう国がCSVで公開するようになったという話。As a data analyst the best data repositories are the ones with the least features も参照。