生成AIを翻訳に利用する

GreenTでは、生成AIを原文編集・解釈、翻訳、推敲の3つの用途で利用できるように準備中です。

※2024年5月14に現在、生成AIを利用可能なプランや利用料金は未定です。Ver. 2.1から利用できるようになります。

本記事の内容

1. GreenTが目指す生成AIの利用方法
2. 操作方法
3. 文字数の計算方法
- 3-1. ChatGPTの性能はトークン使用量で変化
- 3-2. トークン使用量を文字数に換算

1. GreenTが目指す生成AIの利用方法

1-1. 不正使用の監視がされない安全な言語モデルを採用

GreenTでは、Microsoft の Azure OpenAI Service のGPT-3.5 Turboという言語モデルを採用します。この言語モデルは、Microsoft が Azure というクラウドプラットフォームで提供する対話型の生成AIサービス（OpenAIのChatGPTに相当）です。

GreenTで利用する言語モデルは、Microsoftとの契約により、翻訳対象として送信したデータがMicrosoftのサーバーに「監視目的で保存される」ことがない特別仕様になっています。そのため、特許明細書のような機密情報が「公開された状態になる」リスクがない安全な言語モデルを利用しています。

弊社では、GreenTで扱うデータが機密情報であることから、情報の安全な管理を徹底しています。特に、新規出願の特許明細書においては監視可能な状態でデータが保存されていることは、公開されたことと同義になると考えており、上記の「不正使用の監視」がなされないように設定された言語モデルを利用しています。

1-2. あなたのChatGPTは大丈夫？不正使用の監視中かも？

OpenAIとMicrosoftはともに、言語モデルの不正使用の監視を目的として、データが30日サーバーに保存されることになっています。

Microsoft：Data, privacy, and security for Azure OpenAI Service
“To detect and mitigate abuse, Azure OpenAI stores all prompts and generated content securely for up to thirty (30) days.”
OpenAI Data Controls FAQ
“To monitor for abuse, we will retain all conversations for 30 days before permanently deleting.”

通常の有料契約では、「監視目的でのデータ保管」がデフォルトの設定になっています。なお、OpenAIとの契約の場合には、現時点では「監視目的でのデータ保管」を拒否する手段がありません。

現在ご利用の生成AIサービスがある場合、そのサービスがどのような規約でデータを取り扱っているのか確認する必要があります。OpenAIと契約をしてChatGPTをCATツールで利用する場合には、情報公開のリスクについてクライアントと合意したうえで利用したほうがよいでしょう。

弊社（エヌ・アイ・ティー株式会社）では、機密情報が公開されないよう、また取り扱うデータの安全性を確保するため、MicrosoftのAzure OpenAI Service において「監視目的でのデータ保管」がされないような契約をした言語モデルのみを利用しています。

1-3. MicrosoftやOpenAIとの契約なしで生成AI利用が可能

以下、GreenTで利用可能な生成AIを総称してChatGPTと呼びます。（※今後、タブの表示名やUIが変更される可能性があります）

GreenTでChatGPTを利用する場合、GreenTのユーザーは個別にMicrosoftやOpenAIとの契約は必要ありません。GreenTを提供するエヌ・アイ・ティー株式会社がMicrosoftと契約をしているからです。

ChatGPTが利用可能な状態になると、翻訳用のタブに［ChatGPT］タブが表示されます。これをクリックするとChatGPTの翻訳を利用できるようになります。また、細かな設定は、設定画面の［ChatGPT］タブで行います。

翻訳の分野や表現についても、DeepLやGoogle翻訳を利用する場合と同様に［Style］タブで設定できます。ここで設定した文末表現（「だ・である調」、「です・ます調」）や特許翻訳などの分野に応じた表記の統一もほかの翻訳エンジンと同様に適用されます。

（参考）

2. 操作方法

2-1. 翻訳作業の3つの用途で生成AIを活用

［ChatGPT］タブで設定した内容を画面左側の翻訳用の操作画面に反映します。原文の編集や解釈、翻訳、そして、訳文の推敲の3つの用途でChatGPTを利用するため、さらに3つのタブが用意されています。

ChatGPTを用いて3つの機能（原文の解釈、翻訳、推敲）を実行するにあたり、意訳の度合い（元の文から独創的に生成するのか？）、文脈の考慮（直前の文を最大10個まで考慮）、生成する文の数を指定できます。パラメーターはそれぞれの機能別に独立しています。

意訳度合いは10段階で設定できます。特許明細書や契約書のような堅い文書では、意訳度合いを0に設定するとよいでしょう。

マーケティング翻訳やエンターテイメント（映画・アニメ）翻訳などトランスクリエーションと呼ばれるような文書の場合には、後述の指示と意訳度合いを変更して、どのような出力が好みなのか試してみてください。

考慮する直前の文の数を1以上にすると、直前の文を考慮した文を出力できるようになります。

［指示］欄に好みの文体や表現、また想定読者を定義します。これがプロンプトと呼ばれるものです。［指示］チェックをオンにすれば、指示が翻訳に反映されます。指示（プロンプト）をそれぞれの機能ごとに10種類を保存できます。区別しやすくするために、指示の入力欄を以下のパステルカラーにしました。

原文編集・解釈：水色
翻訳：黄色
推敲：黄緑色

指示の言語は日本語でも英語でもかまいません。現状では、安定した動作を確保するために、和文で100文字、英文で50語を上限としています。

2-2. 原文の編集や解釈に利用する

原文の編集や解釈に利用する場合、［ChatGPT］タブの［Pre-edit］タブを開いて設定をします。

この機能を用いると、原文の解釈が困難な場合に、原文を別の表現で言い換えられます。難解な英文の解釈に用いることもできますし、文脈を考慮して原文をわかりやすく書き換えることもできます。

たとえば、「うなぎ文」で説明してみます。

「何を注文しますか？」を「What would you like to order? 」と訳した後で、「私はうなぎです。」を翻訳する際に、そのまま翻訳をすると「I am eel.」（DeepL）や「I’m an eel.」（Google翻訳）と誤訳をします。原文をそのまま直訳してはならない典型例です。

この「私はうなぎです。」を正しく訳すために、原文を言い換えてみましょう。

対象の文を［原文］欄に取り込んで、［原文解釈］ボタンをクリックすると、設定に応じて原文の内容が生成されます。以下の場合、直前の1文を考慮して3案を出力しました。また、和文の文末表現を「常体」と指定しました。

その結果、「私はうなぎを注文する。」や「私はうなぎを食べたい。」という文脈を考慮した解釈が表示されています。

原文：
私はうなぎです。

解釈：
私はうなぎを注文する。
私はうなぎを食べたい。
私はうなぎが好きである。

この解釈をみて自分で翻訳してもいいですし、場合によっては、このように出力された解釈を［原文］欄に戻してから機械翻訳をしてもよいでしょう。生成された文を［原文］欄に入力するには、［解釈］欄に採用する文字列だけを残して［適用］ボタンをクリックします。

元の原文に戻す場合には、［リセット］ボタンをクリックします。

このときに、ユーザー独自の指示を追加できます。「中学1年生が理解できる表現にしてください」など用途に応じて内容を使い分けてください。

2-3. 翻訳に利用する

翻訳する場合には、DeepLやGoogle翻訳を利用する場合と同様、［ChatGPT］タブを開いて［GreenT］ボタンをクリックします。用語集を適用する場合には、［用語集］チェックをオンにします。

GreenTでChatGPTを翻訳に利用する場合には、右側の設定用の［ChatGPT］タブの［Translate］タブで上述の意訳度合い、文脈の考慮、提案数、指示を設定できます。

この機能を用いると、以下のような翻訳結果を得られます。DeepLやGoogle翻訳と比較してみます。（2024年5月14日現在）

原文：
何を注文しますか？私はうなぎです。

訳文：Google翻訳
What would you like to order? I'm an eel.

訳文：DeepL
What would you like to order? I am eel.

訳文：ChatGPT：意訳度合い：5、直前の1文を考慮、提案数：3
I would like to order eel.
I'll have the eel.
I'd like the eel, please.

工夫次第で、いろいろ出力を変化させられます。特許の日英翻訳では、用語集に登録された語句が直前の文で使われていれば、定冠詞が加えられます。

和文の主語がない場合も、正しく補えます。

たとえば、「What did he order? 」に続く「うなぎです。」を訳してみましょう。

原文：
What did he order? うなぎです。

訳文：ChatGPT：意訳度合い：5、直前の1文を考慮、提案数：1
He ordered eel.

主語が「He」となり、動詞には過去形の「ordered」が補われています。これはすごい。こういうところは、生成AIの驚くべき能力だと思います。

ChatGPTの出力結果は毎回異なるので、ぜんぜん使いものにならない出力になることもあります。

2-4. 推敲に利用する

ChatGPTを訳文の推敲に利用する場合には、右側の設定用の［ChatGPT］タブの［Revise］タブの設定項目を利用します。ほかの機能と同様に意訳度合いや考慮する文の数を指定したり、指示を自由に記述できます。

さらに、推敲に利用するデータを、訳文だけを検討するのか、原文と訳文の両方を用いて検討するのかを選べます。

推敲をする対象の訳文のタブを表示し、［RV1］ボタンもしくは［RV2］ボタンをクリックします。上記の例ではGoogle翻訳の訳文を推敲する例です。

［RV1］ボタンをクリックした場合には、推敲結果が［M1］タブに表示されます。同様に、［RV2］ボタンをクリックした場合には、推敲結果が［M2］タブに表示されます。いくつかの条件で比較をする場合があると想定されるため、出力結果を［M1］タブと［M2］タブに残し、訳文を比較できるようにしています。

（参考）訳文を比較する方法

この機能を用いると、以下のような提案を得られます。Google翻訳の訳文を推敲してみます。（2024年5月14日現在）

原文： 
何を注文しますか？

訳文：Google翻訳
What would you like to order?

推敲案：提案数＝3、データ：バイリンガル
May I take your order?
What can I get for you?
What are you interested in ordering?

指示を入れると、以下のように推敲案が変化します。

原文：
何を注文しますか？

訳文：Google翻訳
What would you like to order?

推敲案：提案数＝3、データ：バイリンガル、指示：丁寧な表現にしてください
May I ask what you would like to order?
Could you please let me know your order?
What can I get for you today?

推敲案：提案数＝3、データ：バイリンガル、指示：ぶっきらぼうな表現にしてください
What do you want?
What can I get for you?
What's your order?

翻訳のヒントを得られるかもしれません。

2-5. オプション設定

2-5-1. フォントサイズ

設定用の［ChatGPT］タブにある［指示］欄の文字の大きさを［Setting］タブで変更できます。

2-5-2. ［指示］欄のタブ名

プロンプトを記述する［指示］欄のタブの名称を変更できます。対象のタブをダブルクリックすると名称を入力するダイアログが表示されます。名称を入力して［OK］ボタンをクリックすると、対象のタブに反映されます。

3. 文字数の計算方法

3-1. ChatGPTの性能はトークン使用量で変化

上記のようなChatGPTの性能を支えているのは、ChatGPTに与えているデータです。

ChatGPTが文脈を考慮して言葉を補えるよう、GreenTでは自動的に直前の文をChatGPTに与えて、その内容を考慮して訳文を考えるように指示しています。与えるデータには、上記のような直前の文以外にも、指示の内容（プロンプト）も含まれます。

ChatGPTの利用料は、このデータの入力量とChatGPTからのデータの出力量の合計値から計算されます。よって、文脈として考慮すべき文の数を増やせば与えるデータ量が増えるので、ChatGPTの利用料が上がるということです。また、たまたまChatGPTからの出力にいらない情報が大量に含まれてしまった場合でも、その出力量に応じた利用料がかかります。

ChatGPTで出力の精度を上げるためには、ChatGPTに与えるデータ量を増やすことが考えられますが、その分、使用料も同時にかかり得るということです。

3-2. トークン使用量を文字数に換算

GreenTでは、ChatGPTを利用した場合にはChatGPTが使用したトークン数を文字数に自動で換算します。以下のように、ChatGPTを用いた場合に消費した文字数（Japanese Characters: JC）として表示されます。

8文字の「私はうなぎです。」を翻訳するのに、72文字分を消費したということです。ただし、この時の翻訳には、直前の文を考慮して翻訳案を3つ出力しています。直前の文を考慮せず、訳文を1つだけ出力すれば消費文字数は減ります。

ライトプランをご利用の場合、翻訳対象の和文の文字数では2万文字まで翻訳できますが、ChatGPTを利用すると2万文字の翻訳ができなくなりますのでご注意ください。

現状では、ChatGPTの利用料が廉価な「GPT-3.5 Turbo」という言語モデルを採用していますが、別の言語モデルを採用する場合には換算方法を相応に変更しますのでご了承ください。

ChatGPTの性能や用途を見定めてご利用ください。