今年の4月に「【機械翻訳】DeepL翻訳とGoogle翻訳の性能を比較」にてDeepL翻訳の翻訳性能を紹介しました。
その続編です。今後も定点観測は必要だと思いますので時々報告しようと思います。
DeepL翻訳の使いづらい例を紹介
前回の記事「【機械翻訳】DeepL翻訳とGoogle翻訳の性能を比較」でも書きましたが、機械翻訳が出力した訳文の評価って難しいですよね。使用するサンプル文で結論が変わるからです。
つまり、恣意的にサンプル文を選べば自分が欲しい結論を簡単に導き出せるということです。
たとえば、DeepL翻訳の性能が高いことを主張したいのであれば、DeepL翻訳でうまく訳せたサンプル文を紹介すればいいということになります。
逆に、DeepL翻訳やGoogle翻訳を含め、機械翻訳がいけていないことを主張したいのであれば、うまく訳せないサンプル文を紹介すればいいのです。
今回はDeepL翻訳ってこういう場合に使いづらいという事例を紹介するためのサンプル文を選んでいることを先にお伝えします。
ちなみに前回記事では、DeepL翻訳ってすごいかも!という意見を述べるためのサンプル文でした。
ご自身で確認してください
翻訳で求められる品質は、クライアントの要求レベルや翻訳に投資する経営判断、あと訳文の使用目的により異なることが知られています。
なので、同じ分野の翻訳者同士でも、翻訳品質に関する意見が異なるということなのです。付き合っているクライアントが異なるわけですから。
(参考:翻訳を評価する「視点」の違いについて)
そのようなわけで、この記事ではDeepL翻訳とGoogle翻訳の翻訳出力が何点であるか、どうしたら合格点になるのかという類の話はしません。
この記事では、DeepL翻訳とGoogle翻訳の2つの翻訳エンジンの出力結果を比較して、時々見受けられる誤訳の傾向の例を紹介します。
翻訳者であっても翻訳者以外の方であっても、機械翻訳を利用する場合の注意点として気に留めておいてください。
分野によっても傾向は変わると思いますので、ぜひご自身の翻訳分野でご確認ください。
DeepL翻訳の傾向
DeepL翻訳はちょっと癖があるので、それが好き嫌いの分かれる理由かもしれません。
文単位ではなく段落単位や文書単位で機械翻訳をかけるときにDeepL翻訳とGoogle翻訳の違いが顕著に出てくるようです。
というのも、DeepL翻訳は文脈を考慮して訳語を選択するからです。
同じ見出し語(章のタイトルなど)でも文書に応じて適切に訳し分けることがあります。代名詞も前の文の情報をもとに対応する言葉を補うことがあります。最近受講した翻訳会社主催のセミナーで、このことが例文とともに解説されていました。
そのようなわけで、文脈を考慮した結果、Google翻訳よりも勝手に情報を追加したり訳文を修正したりする傾向があると理解するといいかもしれません。
この「おせっかい」が嫌いの原因になりそうですね。「おせっかい」というと、Wordが「おせっかい機能」で嫌われていることを思い出してしまい、DeepL翻訳も頑張っているのになーとちょっと残念な気持ちにもなります(笑)。
あと、文頭の記号(括弧、クオーテーション)の対処が苦手であるという印象を受けます。セミコロンが苦手であるとも聞いたことがあります。
DeepL翻訳とGoogle翻訳の比較(日英翻訳)
前置きが長くなりましたが、具体的に比較をしてみます。段落や文書単位で翻訳をすればいろいろな考察ができると思いますが、1文での比較をします。
なお、誤訳が発生する事例ごとに原因を特定できていません。たまたま変な訳が出力された、という程度にしか理解できておりませんので、ご了承ください。
日英翻訳(特許)
原文
そして、このレンズ部11を介して入射する被写体光の光路上には、CCD(Charge Coupled Device)等の撮像素子12が配置されている。 |
Google翻訳(2020年8月9日)
An image pickup element 12 such as a CCD (Charge Coupled Device) is arranged on the optical path of the subject light that enters through the lens unit 11. |
DeepL翻訳(2020年8月9日)
An imaging device 12 such as a CCD (Charge Coupled Device) is disposed on the light path of the subject light incident through the lens section 11. |
これは上記2つとも原文の構文解釈についてはあまり変わりません。なぜこれを例文として取り上げたのかというと、DeepL翻訳は数か月前は以下のような出力だったからです。
DeepL翻訳(2020年6月)
An image sensor 12 such as a CCD (Charge Coupled Device) is positioned on the optical path of the subject light that enters through the lens 11, and an image sensor 12 such as a CCD (Charge Coupled Device) is positioned on the optical path of the subject light that enters through the lens 11. |
あまりにも訳文が長いので誤訳であることは一目瞭然です。同じ情報が繰り返し書かれています。こういうの困りますね。
この誤訳例をストックしておいたのですが、本日ブログ記事を書くために再度訳してみたら修正されていたのです。せっかくなので記事に使おうということで掲載しました(笑)。
日本語の翻訳サービスを開始したばかりの最近に限った傾向かもしれませんが、DeepL翻訳では訳文の出力が短期間で変化するように感じます。
日英翻訳(金融)
原文
本年3月期の決算発表スケジュールはどうなっているでしょうか? |
Google翻訳(2020年8月9日)
What is the financial results announcement schedule for the year ending March 31, 2013? |
DeepL翻訳(2020年8月9日)
What is the schedule for announcing this year’s financial results for the fiscal year ending March 31, 2012? |
何れの場合も「本年」に具体的な年を入力しております。どちらがいいと言えませんが、このような場合には注意が必要です。
日英翻訳(法務)
原文
XYZ株式会社(以下、「甲」という。)と丸山株式会社(以下、「乙」という。)は、以下のとおり機密保持契約を締結した。 |
Google翻訳(2020年8月9日)
XYZ Co., Ltd. (hereinafter “Kou”) and Maruyama Co., Ltd. (hereinafter “Otsu”) have signed a confidentiality agreement as follows. |
DeepL翻訳(2020年8月9日)
XYZ Corporation (“Kou”) and Maruyama Corporation (“B”). XYZ Corporation (“First Party”) and Maruyama Corporation (“Second Party”) have signed a nondisclosure agreement as follows. (“Second Party”) entered into a nondisclosure agreement with XYZ Corporation (“First Party”) and Maruyama Corporation (“Second Party”) as follows |
あまりにも訳文が長いので誤訳であることは一目瞭然です。
ちなみに、1か月前の7月初旬には以下のような出力でした。
DeepL翻訳(2020年7月)
XYZ Corporation (“A”) and Maruyama Corporation (“B”) XYZ Corporation (“A”) and Maruyama Corporation (“B”) have signed a nondisclosure agreement as follows. (hereinafter referred to as “Second Party”) entered into a nondisclosure agreement with Maruyama Corporation (hereinafter referred to as “Second Party”) as follows |
こちらも誤訳ですね。いらない情報が追加されています。
DeepL翻訳とGoogle翻訳の比較(英日翻訳)
英日翻訳(一般)
原文
It was a salutary experience to be in the minority. |
Google翻訳(2020年8月9日)
少数派であることは有益な経験でした。 |
DeepL翻訳(2020年8月9日)
少数派であることが救いでした。 |
DeepL翻訳の出力はこの文だけだとやりすぎと感じますが、これが正しい訳になるような文脈はどういうものなのか少し妄想をしました。機械翻訳の出力の理由を考えすぎないほうがいいと思いますが、自分が思いつかない切り口のヒントになることもあるかもしれません。
この例ではあえて「salutary」という訳しづらい単語のあるサンプル文を使いました。
この単語は、研究社の「新英和大辞典」では、「1.有益な、ためになる 2.健康によい、健康に効く、健康増進の」となっています。
表面上は上記のような言葉で訳せるかもしれませんが、実はあるニュアンスを持っています。
研究社の「新編英和活用大辞典」では「(そのときは不快だが)あとになって役に立つ、ためになる」となっています。
同様に、Oxford Advanced Learner’s Dictionary では「having a good effect on sb/sth, though often seeming unpleasant」となっています。
この意味を考慮すると、単に「有益」とだけ書くと文の流れが不自然になる可能性があります。翻訳者が気づかなければならない点ですね。
いずれにしても文脈を見ないと訳せないわけです。DeepL翻訳では前の文を見たかのような訳文になっていまして、それはそれで面白いです(笑)。
英日翻訳(一般)
上記の結果が気になったので原文に1つ単語(new)を追加しました。
原文
It was a new and salutary experience to be in the minority. |
Google翻訳(2020年8月9日)
少数派であることは、新しくて有益な体験でした。 |
DeepL翻訳(2020年8月9日)
少数派であることを改めて実感しました。 |
Google翻訳では1つの単語が追加されました。非常にわかりやすい変化です。DeepL翻訳では意味ががらりと変わっています。
Google翻訳もブラックボックスだと言われていて入力の変化に対する出力の変化を予想しづらいです。でも、今回の例をみると、DeepL翻訳ではGoogle翻訳よりも変化を予測しづらい傾向があると思います。
英日翻訳(法務)
原文
“Loan Documents” means the Note (as hereafter defined), the Collateral Assignment, this Agreement and all other documents and instruments evidencing, securing or executed in connection therewith. |
Google翻訳(2020年8月9日)
「ローンドキュメント」とは、ノート(以下に定義)、担保譲渡、本契約、およびそれらに関連して証拠、保護、または実行されるその他のすべてのドキュメントおよび手段を意味します。 |
DeepL翻訳(2020年8月9日)
“ローン文書」とは、本債券(以下に定義する)、担保権譲渡、本契約及びこれらに関連して締結されたその他すべての文書を意味します。 |
上記の通り文頭のダブルクオーテーションを括弧に訳せていません。一般的に文頭のダブルクオーテーションは正確に訳せないようです。今回の例文では、後半の赤字部分での訳抜けも発生しています。
私が開発するニューラル機械翻訳の支援ツール「GreenT」でDeepL翻訳を扱う際にダブルクオーテーションについては自動修正をして対処しています。
(参考:訳文の自動修正例(DeepL))
英日翻訳(法務)
原文
Article 10. (Miscellaneous) |
Google翻訳(2020年8月9日)
第10条(その他) |
DeepL翻訳(2020年8月9日)
第10条 (その他のもの) : object[有体物], thing[物全般] / この法律において「物」とは、有体物をいう, article[物全般], property[財産価値のある物]物 |
DeepL翻訳は見るからに誤訳です。
なお、DeepL翻訳では条番号が漢数字で出力されることがあります。Google翻訳では条番号はおおむね算用数字になるようです。
まとめ
今回はDeepL翻訳で誤訳が発生したサンプルを集めました。たまたま出会ったものを紹介しました。そのため、網羅的な分野で検証をしたわけではないので、あくまでも参考程度とご理解ください。
そのようなわけで、比較検証は今後も続けていきます。
機械翻訳との付き合い方
今回紹介したように現在の最新の翻訳エンジンでも誤訳が発生します。
このことから「誤訳が発生するから機械翻訳はダメ」という結論を導くのは性急です。どの分野のどの言語方向でどの翻訳エンジンを使うときにどの程度の頻度で誤訳が発生するのか、なんとなくでもいいのでわかっていると具体的な検討ができると思います。
ちなみに、特許の機械工学分野で英日翻訳でDeepL翻訳の出力を見ると、Google翻訳よりも長文の翻訳は得意だと感じます。いずれにしても原文と訳文を丁寧に比較して正確さを確認する必要がありますし、必要に応じて訳文を修正しなくてはなりません。
また、正確さを求められる実務で機械翻訳を使うのであれば、その誤訳を発見し修正するツール(「GreenT」のようなニューラル機械翻訳支援ツールや「色deチェック」のような翻訳チェックツール)を利用することをおすすめします。目視での誤訳発見や手作業での誤訳修正は疲れますので。