ChaSen in UTF-8 on Ubuntu (or Debian)
I have been trying to get ChaSen to work in UTF-8. Allegedly, it should do so; however, the packages installed by Debian (and used unchanged by Ubuntu as well) don’t include all the necessary files for rebuilding them in UTF-8 format.
What a pain.
However, it’s something of a blessing in disguise to have to go
back to the source: the version of ipadic
available on
the ChaSen site appears to be significantly newer than that
available through Debian.
The first step, therefore, is to obtain the latest
ipadic
archive and unpack it. I did so in
/usr/local/src
; you can do it wherever you like:
> wget http://chasen.aist-nara.ac.jp/stable/ipadic/ipadic-2.7.0.tar.gz > tar zxvf ipadic*.tar.gz
For the remaining work, I have prepared a small tool to handle it. It relies on
Ruby and the Ruby iconv
library, which can be
installed with the following command if necessary:
$ apt-get install ruby libiconv-ruby
Now, run my tool to generate the UTF-8 dictionaries and update
the configuration accordingly. Change the path if you unpacked
ipadic
in a different location.
$ ruby chasen-utf-8.rb /usr/local/src/ipadic-2.7.0
That should handle everything for you.
Problems? Please add a comment below.
(A Japanese translation follows for the benefit of Japanese readers.)
日本語の方が理解できる人のために、翻訳しておく。
茶筌をUTF-8で動くように設定しようとしていた。できるはずなんだけど、Debianのインストールするパッケージ(Ubuntuもそのまま使っている)は、UTF-8変更に必要なファイルが付いていない。
面倒臭いなぁ。
逆に、元から手に入れると、いいと思われる。Debianからのipadic
は、茶筌のウェブサイトに載っているのより、かなり古そうに見えるんだから。
最初の仕事は最新のipadic
をダウンロードして、解凍すること。僕は/usr/local/src
でやったけど、好きな場所にどうぞ。
> wget http://chasen.aist-nara.ac.jp/stable/ipadic/ipadic-2.7.0.tar.gz > tar zxvf ipadic*.tar.gz
残りは、小さなツールを書いております。RubyとRubyのiconv
ライブラリーを使うので、要るなら以下のコマンドでインストールしてください。
$ apt-get install ruby libiconv-ruby
それでは、僕のツールを実行したら、UTF-8辞書を付くって、設定もアップデートする。ipadic
を違うパスに解凍したのなら、合えるようにしてください。
$ ruby chasen-utf-8.rb /usr/local/src/ipadic-2.7.0
全部やってくれるんだ。
うまくできない方は、下にコメントを書いてください。