I have been trying to get ChaSen to work in UTF-8. Allegedly, it should do so; however, the packages installed by Debian (and used unchanged by Ubuntu as well) don’t include all the necessary files for rebuilding them in UTF-8 format.

What a pain.

However, it’s something of a blessing in disguise to have to go back to the source: the version of ipadic available on the ChaSen site appears to be significantly newer than that available through Debian.

The first step, therefore, is to obtain the latest ipadic archive and unpack it. I did so in /usr/local/src; you can do it wherever you like:

> wget http://chasen.aist-nara.ac.jp/stable/ipadic/ipadic-2.7.0.tar.gz
> tar zxvf ipadic*.tar.gz

For the remaining work, I have prepared a small tool to handle it. It relies on Ruby and the Ruby iconv library, which can be installed with the following command if necessary:

$ apt-get install ruby libiconv-ruby

Now, run my tool to generate the UTF-8 dictionaries and update the configuration accordingly. Change the path if you unpacked ipadic in a different location.

$ ruby chasen-utf-8.rb /usr/local/src/ipadic-2.7.0

That should handle everything for you.

Problems? Please add a comment below.

(A Japanese translation follows for the benefit of Japanese readers.)

日本語の方が理解できる人のために、翻訳しておく。

茶筌をUTF-8で動くように設定しようとしていた。できるはずなんだけど、Debianのインストールするパッケージ(Ubuntuもそのまま使っている)は、UTF-8変更に必要なファイルが付いていない。

面倒臭いなぁ。

逆に、元から手に入れると、いいと思われる。Debianからのipadicは、茶筌のウェブサイトに載っているのより、かなり古そうに見えるんだから。

最初の仕事は最新のipadicをダウンロードして、解凍すること。僕は/usr/local/srcでやったけど、好きな場所にどうぞ。

> wget http://chasen.aist-nara.ac.jp/stable/ipadic/ipadic-2.7.0.tar.gz
> tar zxvf ipadic*.tar.gz

残りは、小さなツールを書いております。RubyとRubyのiconvライブラリーを使うので、要るなら以下のコマンドでインストールしてください。

$ apt-get install ruby libiconv-ruby

それでは、僕のツールを実行したら、UTF-8辞書を付くって、設定もアップデートする。ipadicを違うパスに解凍したのなら、合えるようにしてください。

$ ruby chasen-utf-8.rb /usr/local/src/ipadic-2.7.0

全部やってくれるんだ。

うまくできない方は、下にコメントを書いてください。