文書の専門分野の自動判定による翻訳精度向上:ロゼッタが多言語で医学、化学、法務、IT、金融など可能とする新しいバージョンの機械翻訳サービスを公開

課題

株式会社ロゼッタでは、「我が国を言語的ハンディキャップの呪縛から解放する」という企業ミッションの下、『T-4OO』(Translation For Onsha Only)dでと呼ばれるAI自動翻訳の開発・運営を行っています。専門分野ごとにAIを用いて翻訳エンジンを学習させることで、プロ翻訳者レベルの正確さを実現しています。

『T-4OO』は、最大95%の精度のAI自動翻訳で、2,000 分野の専門分野データベースと、ユーザが保有している文書で構築されたデータベースを組み合わせることで、ユーザ向けにカスタマイズされた自動翻訳を提供しています。さらに、機密情報を含む企業内文書の翻訳に際して、安全な環境を構築し、情報漏洩等のセキュリティリスクにも対応します。

専門分野を分類して翻訳を行う言語は英日間で、分野は「医学」「化学」「法務」「IT・通信」「金融・財務・経理」などとしています(注:精度95%とは、「プロの専門分野翻訳者以下非専門の翻訳者以上」としてロゼッタ社が認識する水準です)。たとえば、IT分野でArchitectureといえば計算機やプログラミングの「構造」を表し「アーキテクチャ」とカタカナ語として訳される場合が多いですが、生活と関連する分野であれば「建築」と訳した方が正確でしょう。このように分野ごとに異なる機械翻訳モデルにより訳し分けることで精度を高めています。

しかし、今までのバージョンでは翻訳自体は90以上の言語に対応しているとしていたものの、英・日以外の言語の翻訳において原稿の内容が分類できず、専門分野を選択することが難しい場面がありました。とくに、専門用語が多い医薬・化学、法務、金融の手作業での翻訳は誤訳もあり、契約書などの翻訳に多くの費用がかかっていました。

解決方法

T-400がver.3へのバージョンアップされ、これまで分野が判別できなかった言語の文書でも分野を自動判定し、適切な翻訳エンジンでの翻訳が可能になります。

例えば、医学における臨床・治験の分野では、治験薬概要書、IC、CSR、治験契約書、DDI試験、市販後試験報告書などの文書を翻訳でき、金融の証券・投信の分野ではアナリストレポート、株式、社債、投資信託、信託銀行、不動産投資評価、法令など多岐にわたる専門分野の用語に対応しています。

どうなったか

https://prtimes.jp/main/html/rd/p/000000025.000006279.html

以前のバージョンであるT-4OO ver.2では上記のアラビア語の文書は分類できず、正確な訳ができませんでした。T-4OO ver.3 ではAIが分野を自動判定した後で、分野に応じた機械翻訳システムにより翻訳を行います(上記アラビア語文書では法務を選択します)。どの言語間でも専門分野を認識した上で文書を翻訳したほうが精度が高まります。

自然言語処理の分野には伝統的に文書分類の研究があり、例えば新聞記事をスポーツや経済、政治などの分野に分類するような問題を扱ってきました。古典的には Bag-of-Words や TF-IDF といった手法が使用されてきましたが、最近ではLSTM(Long Short Term Memory)やWord2Vecなどの技術を用いて分類を行う例が見られます。今回の課題でも同分野の方法が用いられたと考えられます。

新しいバージョンによりT-400が扱う全ての言語での分野の分類が可能となり、適切な機械翻訳モデルにより翻訳が可能となりました。

まとめ

この記事では、文書をその内容の応じて分類してから機械翻訳を行うT-400が日英以外の言語の文書分類にも対応した新しいバージョンを紹介しました。

T-400が扱う言語は90言語としているため、どのようにデータを集めたのか興味のあるところです。それが専門性のある企業が違いを生み出せるところかもしれません。

文書分類は新しい手法が今でも提案される分野で、様々な応用が考えられます。ビジネス場面での応用として効果的なものはなにか、そのためにどの手法が適切か、複数の手法を組み合わせるなど、試行錯誤が繰り返されて行くことでしょう。

参考資料

(蒲生由紀子・森裕紀)