COTOHA Translatorは業界別カスタム辞書で精度を向上させる

課題

Google翻訳を始め、翻訳の精度はディープラーニング技術の発展によって大きく向上しました。ちょっとした文章や日常的な文章であれば、かなりの高精度で翻訳することができます。しかし、専門用語が大量に入っている業界向けの文章は、翻訳に必要な文章自体がインターネット上にはほとんど公開されないために、精度を向上させるのが困難でした。

特に製薬業界では、契約書などの翻訳以外にも治験薬概要書や治験実施計画書など、専門用語の入った膨大な文書を翻訳する必要があります。これをどれだけその稼働の軽減が課題となっています。

解決方法

NTTグループの株式会社みらい翻訳が開発し、NTTコミュニケーションズ株式会社が提供しているAI翻訳システム「COTOHA® Translator」では、3種類の辞書を用意しています。NTT基本語辞書、NTT専門用語辞書、そしてお客さま個別辞書です。基本的には前者2つの辞書でTOEIC960点超という高い変換精度を達成していますが、企業ごとの専門用語についてはそれぞれで学習させなければなりません。しかし、一社では文章の量や用語が完全に揃わないなど、辞書構築がままならない場合があります。そこで、ミライ 翻訳では10社程度の情報を集めてカスタムモデルを作成するという取り組みを行っています。

今回は 株式会社みらい翻訳、NTTコミュニケーションズ株式会社と株式会社翻訳センターが、製薬会社を集めて「製薬カスタムモデル共同開発」を行います。前回、12社による第一期メンバーから提供を受けたコーパスによるクローズドテストで精度の大幅向上が確認できたため、それを拡張するのが第二期の目標です。なお、各社の提供したコーパスについては、他社に機密が保たれるように運用しています。「COTOHA® Translator」はGoogle翻訳と異なり、機密文書がもれてしまったりしないようにすると同時に、勝手に利用しない様に気をつけているため、各社のコーパスもこの取り組みに参加した企業間でのみ利用します。

イメージ
https://www.ntt.com/about-us/press-releases/news/article/2018/0115.html

どうなったか

治験薬概要書や治験実施計画書は、一般的には使用されない難解な専門用語や複雑な文章が書かれているため、AI による自動翻訳であってもなかなか実用的な精度での翻訳にはなりませんでした。この取り組みを通して製薬業界向けのAI 翻訳の精度が向上すれば、業界全体の効率化に繋がります。

まとめ

NTTコミュニケーションズでは他の業界においても同様の取り組みを進めていきたいとしています。今回の製薬業界の取り組みが上手く行けば、同じ様に翻訳精度で困っている他の業界でも、複数社が集まってカスタム辞書を作成していくことになります。この取り組みが広がっていくことで、様々な業界で翻訳精度が上がっていくでしょう。

参考資料

(Marvin編集部)