【機械翻訳】ポストエディットの例とGoogle翻訳の進化

私は、機械翻訳のポストエディットをどこまでするのか?という答えはクライアントにより異なると思っています。クライアントが合格点を出した品質が、ポストエディットで目指す品質だと痛感した経験があったからです。だから一般論で一言でまとめようとすると誤解もあると思っています。

(参考:顧客のニーズの重要性

今回の記事では、修正すべきか否かのグレーゾーンにある例を紹介します。私は、翻訳者のためのニューラル機械翻訳「GreenT」を開発している関係で、Google翻訳等のニューラル機械翻訳エンジンがどの程度の精度で翻訳できるのか定期的に確認しています。また、その機械翻訳のポストエディット例を様々な人に見せてどう感じるのかもときどきヒアリングをしています。

そういうポストエディットへの現場の声も紹介しつつ、先月たまたま見つけたGoogle翻訳の進化の例を紹介します。

原文

以下、Harvard Business Reviewの2017年4月号に掲載された「Why You Should Have (at Least) Two Careers」という記事の1文です。

My day job not only afforded me the capital to make albums, but it taught me the skills to succeed as a producer.

典型的な無生物主語構文です。

Google翻訳:2019年6月23日

私の日々の仕事は、アルバムを制作するための資金を提供するだけでなく、プロデューサーとして成功するためのスキルも教えてくれました。

原文の文の品詞をそのまま訳しています。典型的な機械翻訳調(笑)の訳文です。無生物主語構文が不自然ながらも意味は理解できます。

ポストエディットの考え方

ポストエディットをする人により、今回のような出力文への対応が異なると思います。「意味が通じればいい」というクライアントからの品質基準でポストエディットをする人は、この出力文を修正しない可能性もあります。「自然な日本語にする」や「読みやすい日本語にする」という品質基準であれば手を加えると思います。

ポストエディットの仕事での難しさ(もしくは、工夫して差別化できるポイント)は、クライアントと翻訳者とでこの品質基準を同じ視点で共有するということだと思います。「自然な」や「読みやすい」という主観的な言葉だけでは共有が難しいので、今回のような具体的な例文を多数用意して合意をとるのがよいと思います。

同じ分野の翻訳者同士で話をしていても目指す品質基準が異なることはよく経験しています。なので、クライアント、翻訳会社、翻訳者の3者が翻訳に関与した場合にはその基準を同じ目線で共有するのには努力・工夫が必要だと思います。

ポストエディット例

原文を使ってより自然な日本語にするのであれば、無生物主語を修正するといいと言われています。最低限の修正を目指して以下のようにしてみました。

私の日々の仕事により、アルバムを制作するための資金を提供する得ただけでなく、プロデューサーとして成功するためのスキルも教えてくれ学びました。

以下のようにしてもいいでしょう。

は、日々の仕事から、アルバムを制作するための資金を提供する得ただけでなく、プロデューサーとして成功するためのスキルも教えてくれ学びました。

文脈でわかるのであれば「私」を削除してもいいかもしれません。要は、自然な日本語にして読みやすくするためにいろいろできるということです。でも、限られた時間内で処理するという制限もあるので、よい表現をひねり出すために時間をかければいいというものでもありません。

クライアントとの意見交換

私は外資系企業で働く友人や特許事務所、翻訳会社などのクライアントに上記の無生物主語のGoogle翻訳結果と私の上記の修正例を含むこの記事のポストエディット例を見せてどう感じるのか聞いたことがあります。翻訳者の役割や価値(+それにかかる適正なコスト)を説明したかったのと、あと現場レベルで求められる翻訳品質を確認したかったからです。

私はこの説明用にGreenTのログ記録機能を用いてポストエディットの変更履歴とこのポストエディットにかかった時間を文単位で記していましたので、それも見せて意見交換をしました。このことで、ポストエディットで何が行われているのか(つまり、文書全体で修正箇所がどの部分にあり、その修正にどの程度の時間を要しているのか)の具体例により意見交換ができるのです。

このときに、私の上記のような修正文が読みやすいと評価した方もいましたが、「Google翻訳のままで意味はわかるから、修正にコストがかかるなら修正しなくていい」と回答した方も少なからずいました。「修正の量」というのは常に翻訳コストに関係しています。読みやすさを優先すれば修正したほうがいいのですが、それにどれだけのコストがかかっているのか?というのが現場レベルの判断基準だと実感しました。

誤解のないように付け加えると、このときにポストエディットが必要ないとはだれも言いませんでした。Harvard Business Review に掲載されるような英文記事であっても、まだGoogle翻訳では正確に訳せません。なので、私(翻訳者)の修正箇所の価値を認めてくれたのですが、「新田さんの●秒の修正作業(コスト)を考えると、ここまで修正しなくてもいい」という結論になったところもあったということです。この修正の有無の判断も、この評価者が想定した翻訳文の用途や品質基準によって変わるわけですから、一般化できないと思っています。

Google翻訳の進化

さて、話の続きです。

上記で説明したGoogle翻訳は去年の出力例なのですが、現在はどのレベルにあるのでしょうか。以下の原文と訳文を見てください。

原文

My day job not only afforded me the capital to make albums, but it taught me the skills to succeed as a producer.

Google翻訳:2020年4月16日

日々の仕事のおかげで、アルバムを作るための資金が得られただけでなく、プロデューサーとして成功するためのスキルも身につけました。

私は正直なところを言うと、この出力を見てすごいことになっているなと感心しました。無生物主語構文を正確にとらえて日本語らしい表現に修正されているではありませんか!私がささっと修正した訳文よりも読みやすいし(笑)。

「Google翻訳ではまだまだ機械翻訳チックですよね」と使っていた例文でこのような出力になっているのです。もう、この例文は人間翻訳者の優位性の説明に使えません。GreenTのポストエディット機能のうれしさの説明にも使えません(笑)。別の文章を用意しなきゃ。

去年、Google翻訳による特許翻訳の出力結果を評価した際にも、技術文書における無生物主語の扱いが上手になってきていると感じました。今回のような分野の文章に対しても同様に進化しているのですね。

みなさんはどう感じられましたか?これを直す必要はありますか?直すのであればどう直しますか?

しつこいようですが、機械翻訳の活用には注意が必要です

今回はたまたまこのような例を発見したので面白いなと思って紹介しましたが、機械翻訳で毎回どの分野でもこのような品質の訳文が出力されるわけではない、ということもはっきり伝えておきます。誤訳はまだまだ当然のことながらあります。

翻訳者からすると、最近の機械翻訳の出力の品質の向上は危険性をはらんでいると思います。誤訳を含みつつかなりの精度で出力されることがあり、それを鵜呑みにしてしまうと原文の意図を取り違えてしまう可能性があるからです。

あくまでも「自分で翻訳をするのであればどうしたい」という意思や原文の理解とともに出力文に向き合わないと、機械翻訳の誤訳を見抜けない場合があります。なので、原文を正確に読み取る力、訳文を書ける能力もともに鍛えるというこれまでの翻訳の勉強・訓練は必要だと思います。

あと、私はニューラル機械翻訳を使うのであれば、GreenTのようなツールを使った誤訳発見や修正が欠かせないとも思っています。

(参考:翻訳者のためのニューラル機械翻訳支援ツール「GreenT」

今後も引き続き、機械翻訳の活用方法を検討しながらツール開発を続けていきます。

関連記事

顧客のニーズの重要性

【機械翻訳】翻訳を評価する「視点」の違いについて

【機械翻訳】ニューラル機械翻訳利用の判断基準

翻訳者のためのニューラル機械翻訳支援ツール「GreenT」

GreenTのポストエディット機能

GreenTのログ記録機能

トップへ戻る