文字情報基盤の文字をJIS範囲の文字への変換するMJ縮退マップ

約6万字の文字情報基盤の文字を約1万字のJIS範囲の文字に変換するためのMJ縮退マップというデータが試験的に公開されている。そのうち正式版が出るようだ。

こういうデータは計算機上で扱う文字の種類数を減らしたい人間からするととてもありがたい。

MJ縮退マップとは

MJ文字情報一覧表で整備されている戸籍統一文字と住民基本台帳ネットワークシステム統一文字を合わせて整理した、約6万文字の文字情報基盤の文字(MJ文字集合)と、約1万文字のJIS X 0213(JIS第1水準~第4水準)の文字との対応関係を、辞書や人名に係る各種告示等を根拠として整理した物です。


以下を組み合わせてフィルターを作ることになるようだ。

- MJ縮退マップVer.0.1(検証版)の公開
http://mojikiban.ipa.go.jp/4141.html

- MJ文字情報一覧表Ver.004.02
-- http://mojikiban.ipa.go.jp/1311.html

それにしても、実際にUTF-8なコードで雑に使える map 構造するまでにちょっと面倒だなという印象。

ほぼ文字と文字の組だけで示してくれれば良いのに、キーとなるMJ******な文字を
別のテーブルから持ってこないといけない。ダルい。でも、活用するしか無い。

多分そのうち活用させていただきます。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus