MeCab

今さらだが、形態素解析ツールMeCabを使う必要が生じたので、Macへのインストールの手順をまとめておく。

といっても、Homebrewが入っていれば

brew install mecab
brew install mecab-ipadic

で入る。試してみよう。標準のipadicでは次のようになる。

echo '外国人参政権' | mecab
外国    名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人参    名詞,一般,*,*,*,*,人参,ニンジン,ニンジン
政権    名詞,一般,*,*,*,*,政権,セイケン,セイケン
EOS

定評のある国立国語研究所の UniDic を試してみよう。現代書き言葉、現代話し言葉、古文用UniDicがあるが、ここでは現代書き言葉のもの unidic-cwj-202302.zip をダウンロードする。

cd /opt/homebrew/lib/mecab/dic
mkdir unidic-cwj
cd unidic-cwj
unzip ⋯/unidic-cwj-202302.zip

試してみる。

echo '外国人参政権' | mecab -d /opt/homebrew/lib/mecab/dic/unidic-cwj
外国    名詞,普通名詞,一般,*,*,*,ガイコク,外国,外国,ガイコク,外国,ガイコク,漢,*,*,*,*,*,*,体,ガイコク,ガイコク,ガイコク,ガイコク,0,C2,*,2176766768718336,7919
人参    名詞,普通名詞,一般,*,*,*,ニンジン,人参,人参,ニンジン,人参,ニンジン,漢,*,*,*,*,*,*,体,ニンジン,ニンジン,ニンジン,ニンジン,0,C2,*,7876360236311040,28654
政権    名詞,普通名詞,一般,*,*,*,セイケン,政権,政権,セーケン,政権,セーケン,漢,*,*,*,*,*,*,体,セイケン,セイケン,セイケン,セイケン,0,C2,*,5434619721818624,19771
EOS

最後に NEologd を。

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd  
./bin/install-mecab-ipadic-neologd -n

試してみる。

echo '外国人参政権' | mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
外国人参政権    名詞,固有名詞,一般,*,*,*,外国人参政権,ガイコクジンサンセイケン,ガイコクジンサンセイケン
EOS

なお、デフォルトの辞書(dicdir)などの設定は /opt/homebrew/etc/mecabrc で行う。