ChasenをUTF-8環境で使いたい。

後輩が困ってたので横どりして解決してきたChasenのインストール。依存関係とか難しいらしい。
ひとまず自分が参考にしたサイトと、インストール手順なんかを簡単にまとめておく。自分用なので適当です。あしからず。Linuxとか初心者なのでものすごい場当たり的な解決をしてるところも。そこ違うわ!ってことがあったら教えてください。「諦めたらそこで試合終了だよ」を胸に、粘り強く頑張った。うん。

ちなみにインストールした環境はCentOS5.3です。CentOSのバージョン確認の方法は以下の通り。

cat /etc/redhat-release

インストールする前に

自分は途中から引き継いだので、ひとまずアンインストールから。ソースからコンパイルしてるのでアンインストールするのにも一苦労。パッケージ管理使ってたら簡単なのに!makeでもアンインストールできそうにないので、ファイル全消しで対応。

find / -name ○○○○
rm -rf ○○○○

これが正しい処置なのかどうかは知らないけど、とりあえず全部消せた。

インストールしよう!

複数のサイト見ながら適当にインストール。基本的には「configure」から「make」、「make install」でだいたいOKです。序盤は↓のサイト見てた。一番上に載せてるサイトはUTF-8での運用の仕方を考えたときに見つけたサイト。どっちでもいいと思う。インストールさえできれば。
http://d.hatena.ne.jp/tmpc/20081216/1229398592

インストールしたソフトウェアのバージョン

  • darts-0.32
  • chasen-2.4.4
  • ipadic-2.6.3

ちなみにdarts-0.3とchasenのインストール仕様がバージョンによって合わないらしいんだけど、上記の組み合わせの場合は特にconfファイルいじることなくインストールできました。参考まで。

インストールはできたけど・・・?

#chasen: /usr/local/etc/chasenrc: UNKNOWN_POS/michigo-hinsi is not specified
chasenを実行してみると上のエラーがでる。chasenrcはconfファイルっぽいんだけど、ほとんどまともなの書いてないっぽい。ググってみると違う場所に正しいconfファイルがインストールされてた。PATH変えるのも面倒だから、/usr/local/etc/chasenrcを上書きした。ちなみに正しいconfファイルは、 /usr/local/lib/chasen/dic/ipadic/chasenrcだった。

■それでもやっぱりエラーが出る
#chasen: /usr/local/lib/chasen/dic/ipadic/cforms.cha:9-21: no basic form
どういうこっちゃなー、と思ってググってみるとどうも文字コードによるエラー。正しく使用するにはオプションをつけましょう。「chasen -iw」で起動できました。

さらに参考になりそうなURL(文字コード関連:Cabochaを使うときに気をつけること)
http://d.hatena.ne.jp/wherever/20060615/1150366150

■せっかくなので動作確認
# test.txt | chasen -iw

テスト テスト テスト 名詞-サ変接続
ドキュメント ドキュメント ドキュメント 名詞-一般
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
この コノ この 連体詞
テキスト テキスト テキスト 名詞-一般
は ハ は 助詞-係助詞
走り出し ハシリダシ 走り出す 動詞-自立 五段・サ行 連用形
ます マス ます 助動詞 特殊・マス 基本形
。 。 。 記号-句点
EOS
茶筅 チャセン 茶筅 名詞-一般
は ハ は 助詞-係助詞
、 、 、 記号-読点
この コノ この 連体詞
テキスト テキスト テキスト 名詞-一般
解析 カイセキ 解析 名詞-サ変接続
し シ する 動詞-自立 サ変・スル 連用形
ます マス ます 助動詞 特殊・マス 基本形
。 。 。 記号-句点
EOS