Google 翻訳の英日翻訳の品質について 2011 年版

統計的機械翻訳に関する記事を書いている時に、Google の機械翻訳の品質に言及している記事を複数見かけました。それらのうち目立っている記事は 2008年頃のものなので、どれも割とネガティブ。

- Google 翻訳
-- http://translate.google.co.jp/

でも、もしかすると 2011 年になって Google 翻訳の品質は変わっているのかもしれない、と思いました。

DSC01051

ということで、Google 翻訳の英日翻訳の品質について調べてみます。和訳の質は上がっているかな?


2008 年ごろの翻訳結果と比較


淡々と2008年の結果と2011年5月の結果を比べてみます。

 Google 2008Google 2011
Read after me.読み取り後、私です。私の後にお読みください。
I forgot to call her last night.パスワードを忘れて彼女の最後の夜をコールします。私は彼女の最後の夜に電話をするのを忘れた。
She bought a picture painted by a famous painter.彼女は買って画像塗装された有名な画家です。彼女は有名な画家が描いたその絵を買った。
She went out to look for a taxi.彼女がお留守にタクシーを探しています。彼女はタクシーを探しに出かけた。
Mary has a guitar.メアリーには、ギターです。メアリーはギターを持っています。
We played baseball.私たちの野球です。私たちは野球を果たした。
Come in, please.来るには、お願いします。どうぞ、是非。
She doesn't know how to play golf.彼女はゴルフをする方法を知っています。彼女がどのようにゴルフを分かっていない。
The dictionary on the desk is mine.辞書を机の上には、鉱山です。机は私のものですの辞書。
Lucy has no friends to play with.ルーシーはない友人と遊ぶ。ルーシーと一緒に演奏する友人を持っています。
We walked ten miles that day.私たち一〇マイルその日に歩いた。我々は、その日10マイル歩いた。
Dick played the piano and Lucy sang.ディック演奏のピアノとルーシー相です。ディックはピアノを演奏し、ルーシーは歌いました。
There's an American girl who wants to see you.現在のアメリカ人少女whoを見たいと思ってね。あなたにお会いしたいアメリカ人の女の子はありません。
What is being backed up?バックアップされては何ですか?何がバックアップされていますか?
The following folders will not be backed upは、次のフォルダにバックアップされません次のフォルダがバックアップされません
She do not know how to play golf.彼女はゴルフをする方法を知ってはありません。彼女がどのようにゴルフをするのか分からない。
Yayoi Takatsuki in Idolm@ster is moe.高槻やよいのアイドルマスターは萌えです。アイドルマスターの高槻やよいは萌えです。
I'm not like you.私は好きです。私はあなたを好きではない。
Time flies like an arrow.時間ハエのように矢印をクリックします。光陰矢の如し。
It’s gonna happen!偶然だぞ!それが起こるんだ!

ところどころおかしなことになっていますが2008年と比べたら圧倒的に使える気がします。個人的に気になっていた mineが「炭鉱」から「私の物」になっていたのでスゲエと思いました。

ちなみに他社のルールベースな処理がメインの翻訳システムを使ってみると、まだまだGoogle翻訳より質が高かったです。追いつける日はくるのかな。この速さなら来るかもしれませんが。

何故「光陰矢のごとし」と翻訳できるのか


光陰矢のごとし、が和訳できているのが気になるので、まだきちんと統計的機械翻訳を勉強していませんが見てみます。

原文は「Time flies like an arrow」です。

入力文Google 2011メモ
Google flies like an arrowGoogleは矢の如しflies like an arrowが矢の如し
Time fly like an arrow光陰矢のように飛ぶ動詞の時制は如しの方に影響があった。光陰に影響しない。複雑なことをやっていることが分かってきた
Time say like an arrow時間が矢のように言ういろいろ試したけどtimeに続く動詞がflyの時にtimeが光陰になった
Time flies by an arrow時間は、矢印で飛ぶlikeを取ると、光陰も如しも出なくなる
Time flies like the arrow光陰矢の如し冠詞はあんまり関係ない?
Time flies like arrow光陰矢の如しこの例では冠詞を取っても平気
Time flies like an arrows時間は矢の如し光陰になるためにarrowが必要。事例を沢山使って解決していて、名詞の複数形や動詞の時制も重要なのかも

この例の場合は、計算の結果「Time flies like an arrow => 光陰矢の如し」になっているのかな、というのが伺えます。こんなに短くて構造が単純な英文を和訳するにしても、複雑な計算の結果として訳文が出力されていることが分かるので、長文で複雑な構造をもった英文を和訳するのは、とても難しそうなタスクだと感じます。面白そう。

2009 年ごろの翻訳結果と比較


今度はちょっと後の2009年ごろの翻訳例を探して試してみました。

再び淡々と翻訳していきます。

英文Right now he’s going out with a girl who’s a former Miss California.
Google2009今の彼は、元ミスカリフォルニアの女の子と付き合っている。
Google2011今彼は元ミスカリフォルニアの女の子と付き合っています。

英文A woman whose husband is a well-known doctor was killed by someone yesterday.
Google2009夫はよく知られている医師が女性の人が23日に殺された。
Google2011夫が女性がよく知られている医師は、昨日誰かによって殺されたです。

英文The woman I’m working with is very difficult to get along with.
Google2009私が働いている女性に非常に沿って取得することは困難です。
Google2011私が働いている女性は非常にうまくやっていくことは困難である。

英文McDonald’s is an American fast-food chain whose popularity has spread all over the world.
Google2009マクドナルドは、アメリカのファストフードのチェーン店を持つ人気を全世界に広がっています。
Google2011マクドナルドは、その人気は世界中に広がっているアメリカのファーストフードチェーンです。

英文The neighborhood bank whose business started to drop off is now offering special services to attract new customers.
Google2009そのビジネスは今、新しい顧客を引き付けるための特別なサービスを提供し降ろしを始めた近所の銀行。
Google2011そのビジネス近所の銀行は、新しい顧客を引き付けるための特別なサービスを提供している脱落し始めた。

英文This is the last product I’d have expected to sell like crazy.
Google2009これは私が狂ったように売れることを期待しただろう、最後の製品です。
Google2011これは私が狂ったように販売を予定していると思います最後の製品です。

英文All you’ve got to do is read from Page 10 to Page 20.
Google2009やらなければいけないことを得たページ10ページ20から読み取られます。
Google2011すべては、あなたが20ページ10ページから読み込まれますするんだ。

英文This is the bank where one of my uncles used to work as branch manager.
Google2009これは、銀行はここでは私の叔父の支店長として働いていました。
Google2011これは、銀行されている支店長として働いていた私の叔父のいずれか。

英文See to it that everything is ready by the time he gets here.
Google2009それには、すべての時間を彼はここになるの準備ができてしてください。
Google2011すべては彼がここに来る時までに準備ができていること、それを参照してください。

英文The reason why I chose to study American studies was because I knew that a good knowledge of America was mandatory for studying English through and though.
Google2009私は、アメリカの十分な知識を英語を介しても勉強のために必須を知っていた理由はアメリカの研究を検討することを選択した。
Google2011私はアメリカの良い知識が通っても英語の勉強のために必須だったことを知っていたので、私はアメリカ研究を勉強しようと決めた理由はでした。

他にも見てみましたが、長文や複雑な文や未知語を多く含む文の翻訳精度はまだまだだけど、それでも2009年の頃よりは大分良くなっている気がします。

Google 翻訳への2008年頃の批評


批評としては「これはひどいww」「まじウケるww」「Google翻訳の訳文をそのまま使う英語が苦手な人がいるかも」「機械翻訳が使えない技術と世間に思われたら研究開発をする立場として迷惑」というスタンスのものが目立っています。

例えば、

- 米Microsoft、自社開発の機械翻訳サービスを試してみたが
  http://d.hatena.ne.jp/nofrills/20080909/p2
このようなことを書いているからといって、機械翻訳の研究開発を否定したり、
それを冷笑的に見たりしているわけではない、ということはご理解ください。
これらのツールが一般人に「使える」ものとはいえない段階にある、
というのが前提です。

どこかで「Google翻訳は便利だよ」と書かれていれば、
譬えそれがGoogleという私企業のセールストークであったとしても、
それで「翻訳」された結果は「正しい」と思って
そのまま使ってしまう人がいても当然で、
そういう技術が簡単に利用できるようになっていれば(APIなども含めて)
人々がそれを利用するのも当然で、
実際にそういう「(実は意味不明の)翻訳文」が、
(スパムなどではなく)真面目にコミュニケーションしようという
意図のもとで用いられているのを見ては、「ああ、それはだめ」と思うこともあり
(そしてわけのわからない反撃にあって粘着されたりしたこともありますが)……。

私が言いたいのは、研究開発が悪いとかいうことではありません。
ただし、エンドユーザーにとって「使える」かどうかは、それとはまったく別のことです。
ちょっと長めの引用(改行入れました)になってしまいましたが、


それに対して、

- [を] Google 翻訳の英日翻訳の品質について
-- http://chalow.net/2008-09-17-3.html

上記の意見には全面賛成です。

だってさあ、
日本語がまったく分からない人が、
外国語がまったく分からない日本人に、
Google翻訳で訳した文をメールしてきたらうんざりでしょ?
向こうは、ちゃんとした日本語になっていると思ってるんだから。


だそうです。それは確かに正論だと思います。それにしても大分強い口調で本気さが伝わってきます。

最近(2011年)の開発状況どうなっているのか


中の人じゃないので詳細は知りませんが、Google の機械翻訳に超素晴らしい日本人エンジニアが何人も取り組んでいるという噂を NLP2011 の会場で聴きました。実際のところは分かりませんけど、期待できるなと思います。

個人的には、攻撃的な正論を目の前にして萎縮しないってすごいなと思います。

日本中の一般人が「Google翻訳まじうけるww」と大騒ぎになっても着実に開発し続けて現在の状態にたどりついてることから考えると、機械翻訳はGoogleの目指す未来に欠かせないっていう理想があって、それを突き通したということかな。

おわりに


Google 翻訳の英日翻訳の品質について調べてみました。

2〜3年前と比べて大笑いするような結果が減っており、おしいなぁ、と思うケースが増えている気がします。
これから2〜3年後にどうなってるか分かりませんが、きっとかなり良くなっているんじゃないかと思います。

声の大きなエンジニアから「日本人と真面目にコミュニケーションしたい外国人にオススメしたい」と言われる日も近い、、、といいですね。

スマートフォンで使える高精度な音声検索と機械翻訳の組み合わせは生活が変わると思うので、どんどん進化して欲しいなぁと希望してます。Google さん、頑張って!!

関連リンク


- Google 翻訳

このブログの関連記事


- [O] 統計的機械翻訳に関する教科書・資料

参考にした記事


本記事で使った例文及び過去の結果は、以下のサイトから引用しました。

- [を] Google 翻訳の英日翻訳の品質について
- Google翻訳が面白すぎる件 - Cozy Ozy
- Google翻訳 (日・英) は、まだBETAにもならない実験段階だと思う。
- 翻訳関連情報 「Google 翻訳」 は2年前から進化したか?


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus