今さらだが、形態素解析ツールMeCabを使う必要が生じたので、Macへのインストールの手順をまとめておく。
といっても、Homebrewが入っていれば
brew install mecab brew install mecab-ipadic
で入る。試してみよう。標準のipadicでは次のようになる。
echo '外国人参政権' | mecab 外国 名詞,一般,*,*,*,*,外国,ガイコク,ガイコク 人参 名詞,一般,*,*,*,*,人参,ニンジン,ニンジン 政権 名詞,一般,*,*,*,*,政権,セイケン,セイケン EOS
定評のある国立国語研究所の UniDic を試してみよう。現代書き言葉、現代話し言葉、古文用UniDicがあるが、ここでは現代書き言葉のもの unidic-cwj-202302.zip をダウンロードする。
cd /opt/homebrew/lib/mecab/dic mkdir unidic-cwj cd unidic-cwj unzip ⋯/unidic-cwj-202302.zip
試してみる。
echo '外国人参政権' | mecab -d /opt/homebrew/lib/mecab/dic/unidic-cwj 外国 名詞,普通名詞,一般,*,*,*,ガイコク,外国,外国,ガイコク,外国,ガイコク,漢,*,*,*,*,*,*,体,ガイコク,ガイコク,ガイコク,ガイコク,0,C2,*,2176766768718336,7919 人参 名詞,普通名詞,一般,*,*,*,ニンジン,人参,人参,ニンジン,人参,ニンジン,漢,*,*,*,*,*,*,体,ニンジン,ニンジン,ニンジン,ニンジン,0,C2,*,7876360236311040,28654 政権 名詞,普通名詞,一般,*,*,*,セイケン,政権,政権,セーケン,政権,セーケン,漢,*,*,*,*,*,*,体,セイケン,セイケン,セイケン,セイケン,0,C2,*,5434619721818624,19771 EOS
最後に NEologd を。
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./bin/install-mecab-ipadic-neologd -n
試してみる。
echo '外国人参政権' | mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd 外国人参政権 名詞,固有名詞,一般,*,*,*,外国人参政権,ガイコクジンサンセイケン,ガイコクジンサンセイケン EOS
なお、デフォルトの辞書(dicdir)などの設定は /opt/homebrew/etc/mecabrc で行う。