2010-05-20 Thu

日本語の開拗音のローマ字表記

しゃ、しゅ、しょ、のような、母音がiな平仮名の母音を取って、半母音のy(またはj)をくっ付けて、その後ろに母音のaかuかoをくっ付けた音の節を開拗音といいます。

NHK日本語発音アクセント辞典

[Amazonで詳細を見る]


この開拗音をローマ字表記するときに、複数の表記が可能なものがあることに気がつきます。
たとえば「ちゃ」は、少なくとも「tya」と「cha」の2つのうちどちらを選ぶか、を悩むことができます。

正直なところ別にどちらを選んでも良いのですが、文字列同士の距離を計るタスクにおいて、文字列のよみがなをローマ字化したもの同士を比較する場合等には、ちょっとだけ気を使う必要があります。

どういうことかと言うと、たとえば「ち」と「ちゃ」の2つの文字列の間の編集距離を得たいとします。

平仮名で両者の文字列の編集距離を取得すると「ゃ」が追加(または削除)されているので編集距離は1です。

では、今度はかな表記から取得できるローマ字表記の編集距離を算出してみます。
最初に「ち」をローマ字化して「ti」を取得したとします。
つぎに「ちゃ」のローマ字表記を得るのですが、先ほど述べたとおり、このときに少なくとも「tya」または「cha」は得られます。

このときに「ti」と「tya」の編集距離は「i」と「y」の置換と「a」の追加で2となります。
他方、「ti」と「cha」の編集距離は、両者の表記が丸々違うので、2回の置換と1回の追加で3となります。

最初に「ち」から「chi」を得た場合には、また別な結果になったでしょう。

このように同じ平仮名表記からローマ字表記を取得する際に、どの表記を取得するか、だけで編集距離が変わってしまいます。

したがって、平仮名をローマ字に変換するルールを作る際には、全体を眺めてみて発音の近いものの編集距離が近くなるようなローマ字表記が得られるように気を使うと、平仮名から取得したローマ字表記の編集距離を算出したときに人間の直感と近い値を取得できると思います。

このような考え方を合拗音にも適用すると、例えば「ゔぁ」と「ば」の距離が近くなって、「ば」と「びゃ」の距離が近くなるようにしたい場合に「ゔぁ => ba」、「ば => ba」、「びゃ => bya」みたいに変換することを思いついたりできます。

「ゔぁ」は「va」に変換したい気持ちもありますが、実際に人間が発音するときに「ゔぁ」と「ば」は近いですし、両者を入れ替えて発音しても聴者には通じることが多いはずです。

とか考えながら夕方にお茶を飲んでいました。

実際に文字列距離を算出する処理を含むアプリを実装するときには、いろいろ考えて変換ルールをつくるのですが、割とあちらを立てるとこちらが立たずみたいになるので、なかなか難しいす。

なげやり関連リンク


- レーベンシュタイン距離 - Wikipedia
- 拗音 - Wikipedia

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

霧雨な一日

今日の窓の外は、いつ見ても真っ白。
霧雨が降りまくっていて傘を差しても、強風が吹いたらビチョヌレ。


from overlast using Panasonic DMC-FX100

明日は晴れると良いな。

関連リンク


- 傘 - Wikipedia
-- http://ja.wikipedia.org/wiki/%E5%82%98
# 意外と知らないことだらけで、おもしろい。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

串焼き がぶ飲みワイン 西麻布Vin (六本木・西麻布)

14時半頃にランチを食べに出たので、開いていて旨そうで安そうな店が少ないっす。
お店を探してるうちに、入ったことが無い「西麻布Vin」に到達。入ってみました。


from overlast using Panasonic DMC-FX100

店内はかなり暗くて落ち着いた雰囲気。いわゆる隠れ家的なダイニングバーです。

ランチメニューは4種類くらいあったけど、煮込みハンバーグ定食(800円)にしました。

- 西麻布Vin - 六本木/ダイニングバー [食べログ/公式]
-- http://r.tabelog.com/tokyo/A1307/A130701/13104743/
場所:東京都港区西麻布1-2-12 デュオ・スカーラ西麻布タワーB1F。

続きを読む

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |