手持ちの用語集を用いて用語集を作成

GreenTを使うと、ニューラル機械翻訳の翻訳に用語集を適用できます。GreenTでは、案件用の用語集を最初に作成し、その用語集に基づいてニューラル機械翻訳をします。

この記事では、手持ちの用語集をニューラル機械翻訳に用いる方法を和文の特許明細書を用いて説明します。

仕組み

用語集を作成するために、まず所定のルールに基づいて原文から名詞句を自動的に抽出します。このルールは、名詞句の「使用頻度」と「文字列の長さ(英語であれば単語数、日本語であれば文字数)」です。これは、手持ちの用語集を使用しない用語集作りと同じです。

手持ちの用語集を用いる場合には、自動抽出される名詞句に加えて、用語集に記載のある名詞句をすべて抽出します。用語集に記載のある名詞句の場合、文書中での使用頻度にかかわらず全てを抽出します。固有名詞や物質名は使用頻度が少なくても重要ですので、手持ちの用語集を使えば確実に拾えます。

手順

名詞句の抽出

[アドイン]タブ[GG]ボタンをクリックして[Glossary Generator]ダイアログを開き、左下の[Option]ボタンをクリックします。

すると、[Glossary]タブに手持ちの用語集の設定画面が表示されます。ここにExcelファイルやテキストファイルで管理している用語集を登録します。使う用語集にチェックを入れます。

優先する用語集がある場合には上から順番に登録してください。

Excelファイルの用語集の場合、シート1(一番左側のシート)のみ読み込まれます。A列に原語、B列に訳語を記載してください。

テキストファイルの用語集の場合、タブ区切りで「原語」(タブ)「訳語」としてください。上書き翻訳で用いる用語集のように英訳語の末尾に半角スペースが入っていてもかまいません。入っていなくてもいいです。原語も訳語も、用語の先頭と末尾のスペースは自動的に削除されます。

手持ちの用語集の訳語の特定

[Use Glossary]をオンにすると、先ほど設定した手持ちの用語集を使えます。[Create Term List]ボタンをクリックして名詞句を抽出します。手持ちの用語集から抽出された用語は[OK]と表示されます。

手持ちの用語集同士で訳語の揺れがない場合には、抽出された名詞句を確認します。今回の用語集では訳語の揺れがいくつか見つかりました。

訳語の揺れが見つかると一覧表の左端に[NG]と表示されます。[NG]の場合には訳語を1つ選択しなければなりません。

上記の例では、「記憶部」という原語に対して、「storing unit|storing part|storage unit|storage part」と | で区切られた4つの訳語が表示されています。

個々の用語集で定義されていた言葉がすべて列挙されています。このときに、優先される用語集([Glossary]タブで上の方に登録されている用語集)の訳語が先に表示されますので、選択しやすいと思います。

なお、1つの用語集の中に複数の訳語がある場合には、用語集内で上位に書かれていた用語であっても抽出結果として下位に表示されることがあるのでご注意ください。

今回はクライアントから指定された「storing unit」を使うことにします。修正後に、[Change]ボタンをクリックします。

検出された[NG]の数だけ繰り返します。訳語内に | が残っていると、[NG]と判定されますので残さず削除してください。

訳語を1つに定められない場合でも仮訳を入力することをおすすめします。ここで訳語を特定しない場合には、ニューラル機械翻訳によって勝手な訳が翻訳の都度決められてしまうということです。

複数の訳語を登録する場合

どうしても決められない場合には、「|」の記号を「★」など、自分自身のマーカーと置き換えて複数の訳語を提示してもよいかも知れません。ただし、ここで定義した訳語や後の用語集作成で用いられます(参考:複数の候補から訳語を選択する)。翻訳で使う場面をイメージして適宜調整してください。

テキストファイルには最終的に以下のように保存されます。

確認

抽出された名詞句がすべて用語集にふさわしいとは限りません。そもそも訳語を特定できないような言葉が抽出されていることがあるからです。

手持ちの用語集を使用しない用語集作りでも説明したとおり、それぞれの名詞句を[Previous]ボタン[Next]ボタンを用いて文書中でどのように使われているのか確認して用語集に入れるべき言葉なのかを検討してください。

また、[Source]ボタンをクリックすると抽出された原語をあいうえお順/ABC順に並べ替えられます。確認作業に使ってみてください。

なお、用語の数があればいいわけではありません。用語を特定しすぎるとニューラル機械翻訳の能力を生かし切れないことがあります。ニューラル機械翻訳で当たり前に出力できそうな用語(たとえば、サイズ、カードなど)はわざわざ用語集に登録しなくてもよいと思います。絶対に間違えたくない専門用語やクライアントからの指定用語以外はあまり力を入れすぎずに試してみてください。

ここで登録した用語が後の機械翻訳に用いられてQAチェックにも使われます。

訳語の出力

準備ができたら訳語を出力します。[Create Glossary]ボタンをクリックします。

訳語が出力されると自動的に「QAチェック」が実行され、進捗状況がプログレスバーで表示されます。

QAチェックでは、原語の数字と訳語の数字が間違っていないか、また手持ちの用語集で用いられている訳語([OK]が表示されている訳語)が別の訳語に反映されているか?をチェックします。

たとえば、「第2の実施の形態」で「third embodiment」の出力結果が得られた場合、以下のようにオプション[QA]タブにQA結果が表示されます。

修正した後に[Change]ボタンで確定し、[QA]ボタンをクリックしてQAチェックを続行します。エラーが出なくなるまで繰り返します。

訳語の特定

このように機械的にチェックを実行できますが、出力された訳語が正しいとは限りません。

[Previous]ボタン[Next]ボタンを用いて文章の中で実際にどのように用いられている用語なのか確認してください。

また[Source]ボタン[Target]ボタンを用いて用語を並べ替えてみて、必要に応じて他の用語との表記の統一をしてください。

用語集ファイルの保存

すべての訳語が決まったらファイルに出力します。テキスト形式で保存をします。翻訳で用いますので、わかりやすい場所に保存をしてください。

関連ページ

GreenT

ご利用方法

用語集の作成

複数ファイルに共通の用語集を作成する

複数の候補から訳語を選択する

トップへ戻る