深層学習モデルで日本語・中国語間の翻訳精度を向上:みらい翻訳がニューラル機械翻訳エンジンによる日中双方向翻訳を開発

課題

貿易や製造業分野での取引など、日本経済と中国との関係は年々その重要性を増しており、ビジネスにおける中国との協業やコミュニケーションは、今後も増加傾向にあると考えられます。言語の異なる他者とのビジネスコミュニケーションでは、英語を利用することが一般的ですが、より詳細な意図のすり合わせや迅速なコミュニケーションの実現には、日中翻訳を行うことが効果的です。しかし、統計的な翻訳モデルでの日中翻訳は、日英翻訳と比較してもその精度が低いことが問題でした。
株式会社みらい翻訳(以下、みらい翻訳)は、国立研究開発法人情報通信研究機構との共同研究のもと、深層学習技術を利用したニューラル機械翻訳(NMT:Neural Machine Translation)の日本語・中国語(簡体字)を開発しました。とくにビジネスシーンを想定した日中翻訳に特化したモデルであり、その翻訳精度は中国人翻訳者に迫るものと発表されています。

解決方法

NMTとは、近年研究が盛んにおこなわれている深層学習モデルを用いた言語翻訳モデルの総称になります。一般的なモデルでは自然言語処理に頻繁に用いられるロング・ショートタームメモリ(LSTM)をベースにしており、近年ではGoogle翻訳にも利用されています。NMTでは、例えば日英翻訳モデルの学習時には日本語文とその対訳である英語文を学習データとして利用します。NMTに関する詳細はこちらをご参照ください。
みらい翻訳で利用しているNMTモデルの詳細は明らかにされていませんが、学習にはビジネスシーンに対応した日中対訳文をNMTモデルに学習させることで、高精度の翻訳モデルを構築しています。また日中翻訳に特化した前処理技術を導入することで翻訳精度の向上を図っています。

どうなったか

開発したNMTモデルによるビジネス文章の翻訳文と、中国人ビジネスマン、また翻訳を専業とする中国人翻訳者の翻訳文をそれぞれ比較しました。中国人ビジネスマンは日本語能力検定N1を保有しており、また中国人翻訳者共に辞書を利用して翻訳を行いました。翻訳文評価の結果、開発された翻訳モデルは日本語から中国語、中国語から日本語のいずれの翻訳においても、人手による翻訳と比較して同等の翻訳精度を持つことが示されました。翻訳結果において、原文の情報がどれだけ読み取れるかを評価する指標である精読率は、中国語から日本語の翻訳結果で88.7%、日本語から中国語の翻訳結果で73.3%となりました。一方でに戸出による翻訳作業には数時間を要するのに対し、NMTモデルは数分で翻訳作業を終えることから、業務効率化に大きく貢献することが期待されます。
より詳細なデータに関してはこちらをご覧ください。

まとめ

深層学習の技術を利用したニューラル機械翻訳モデルについて紹介しました。みらい翻訳ではこの翻訳モデルをMirai Translatorというサービスとして展開しています。またこちらからお試し翻訳システムを利用することができます。
深層学習技術の発展により、様々な言語翻訳モデルが開発されるようになっています。書き起こし文字であれば、映画字幕のリアルタイム翻訳などへも利用可能です。今後は同一言語内、例えば一般的な文章から特許請求文章への変換など、様々な場面での応用が期待されます。

参考資料

(堀井隆斗)