CaboChaにUTF-8な文字列を入力できない問題

CaboChaにUTF-8な文字列を入力したいと思って、
いろいろと試してみて分かったことがあるのでメモ。

入力した文字をCaboChaに理解させるためには、
CaboChaのmodelをUTF-8に変換する必要がある。
そのためにmodelのtext表記版をUTF-8化する。
これをUTF-8にして、コケるのは実はCaboChaじゃなくて
YamChaのPKE.pmの内部でmkdartsする部分。
これは単体配布版のdarts-0.31に差し替えても落ちる。
たぶんmodelに書いてあるエントリUTF-8用に
ソートされていないのではないだろうか。
もしくはmodelをPKEで読み込んだあとのソートが
うまくいっていないのではないだろうか。

そこらへんを見なきゃいけないのでは、と言うところで
時間が切れてしまったのでCaboChaに入力するためだけに、
MeCabの出力をeucにして、またutfに戻すむなしい処理を追加した。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus