「TOEIC950点に匹敵する日英機械翻訳」:みらい翻訳が情報通信研究機構との共同研究成果を発表

課題

機械翻訳は正確な翻訳が必要な業務でなければ日常的に使用されるようになっていますが、翻訳精度はまだまだと感じられることが多いのではないでしょうか?Marvinでも紹介したロゼッタのシステムでは専門分野ごとに文書を分類することで翻訳制度の向上を目指していますが、一般的な翻訳精度についても向上が求められています。

みらい翻訳では、これまで深層学習による機械翻訳(Neural Machine Translation)に取り組み日英だけでなく日中の機械翻訳システムを構築し、提供してきました。しかし、翻訳精度の向上は常に期待されています。

解決方法

みらい翻訳では、同社が開発を続けているニューラル機械翻訳において「学習データの増量、前処理の追加等、日々の継続的な改善の成果により翻訳精度がさらに向上」したと発表しました。

今回、このニューラル機械翻訳エンジンを「ビジネスコミュニケーション」や「経済ニュース」などのビジネス文章を用いて、TOEICの得点の高い日本人ビジネスパーソンと日本人プロ翻訳者の翻訳結果と人間の評価者により比較し、評価を行いました。

どうなったか

翻訳成績は、情報伝達度と流暢さに関して5段階で評価されました。英文和訳で比較すると、プロの翻訳家(辞書使用可)と同等の結果となり、TOEICスコアが920点から960点のビジネスマンを上回ると評価されたとしています。また、和文英訳では、プロには及ばないもののビジネスパーソンと同等の結果となったと報告しています。

また、機械翻訳に関して、精読率(※)と呼ばれる評価尺度では、和文英訳で89.3%、英文和訳で71.0%となりました。

そこで、みらい翻訳が公開している「お試し翻訳」を使って、昨日、本サイトで公開した記事「皮膚がんの診断でAIが皮膚科医を上回る精度に:ドイツの研究チームが発表」の元になった論文の概要の一部について、英語から日本語への「お試し翻訳」を試してみました。

医学論文の概要の一部

Title: Deep learning outperformed 136 of 157 dermatologists in a head-to-head dermoscopic melanoma image classification task

Background: Recent studies have successfully demonstrated the use of deep-learning algorithms for dermatologist-level classification of suspicious lesions by the use of excessive proprietary image databases and limited numbers of dermatologists. For the first time, the performance of a deep-learning algorithm trained by open-source images exclusively is compared to a large number of dermatologists covering all levels within the clinical hierarchy.

Methods: We used methods from enhanced deep learning to train a convolutional neural network (CNN) with 12,378 open-source dermoscopic images. We used 100 images to compare the performance of the CNN to that of the 157 dermatologists from 12 university hospitals in Germany. Outperformance of dermatologists by the deep neural network was measured in terms of sensitivity, specificity and receiver operating characteristics.

https://www.ejcancer.com/article/S0959-8049(19)30221-7/fulltexth

みらい翻訳の結果

表題: 頭から頭へのデルモスコピックな黒色腫画像分類課題において、ディープラーニングの成績が皮膚科医157人中136人を上回った

背景:最近の研究は,過度の専有画像データベースと限られた数の皮膚科医の使用により,疑わしい病変の皮膚科医レベル分類のための深層学習アルゴリズムの使用を成功裏に実証している。オープンソース画像のみで訓練された深層学習アルゴリズムの性能を,臨床階層内の全レベルをカバーする多数の皮膚科医と初めて比較した。

方法:拡張ディープラーニングからの方法を用いて,12,378のオープンソースのダーモスコピック画像による畳込みニューラルネットワーク(CNN)を訓練した。100画像を用いて,CNNの性能をドイツの12大学病院の皮膚科医157人の性能と比較した。深層神経回路網による皮膚科医の成績を感度,特異性および受信機動作特性の点から測定した。

みらい翻訳:お試し翻訳

以下は比較対象としてのGoogle翻訳の結果となります。

タイトル:深部学習は、対面皮膚鏡黒色腫画像分類作業において157人の皮膚科医のうち136人を上回った

背景:最近の研究では、過度の独自の画像データベースと限られた数の皮膚科医を使用して、皮膚科医レベルでの疑わしい病変の分類のためのディープラーニングアルゴリズムの使用が実証されています。初めて、オープンソースのイメージによって独占的にトレーニングされたディープラーニングアルゴリズムのパフォーマンスが、臨床階層内のすべてのレベルをカバーする多数の皮膚科医と比較されます。

方法:我々は、12,378のオープンソースのダーモスコピック画像を用いて畳み込みニューラルネットワーク(CNN)を訓練するために、強化されたディープラーニングからの方法を使用した。 CNNのパフォーマンスと、ドイツの12の大学病院の157人の皮膚科医のパフォーマンスとの比較には、100枚の画像を使用しました。ディープニューラルネットワークによる皮膚科医のパフォーマンスは、感度、特異度、および受信者の動作特性の観点から測定されました。

Google翻訳

どのようにお感じでしょうか?専門用語に関しては翻訳がスムーズでないといえますが、全体の印象としては意味の通る翻訳となっているのではないでしょうか?Google翻訳と比較するとカタカナの外来語としてではなく可能な限り漢語や和語で表現しているように見えます。

ただし、2つの翻訳で”head-to-head”という単語が「頭から頭へ」(みらい翻訳)とか「対面」(Google翻訳)と訳されていますが、「直接対決」と訳した方が適切で、さしずめ「AIと皮膚科医の直接対決!」といったところでしょうか。

head-to-headで「直接対決、1対1の」といった意味で競争することに対して用いられる表現です。

head-to-head, back-to-back, toe-to-toeなどの表現

まだまだ改善の余地はありそうですね。

まとめ

みらい翻訳が精度が向上したと発表した日英翻訳システムを紹介しました。プロ翻訳家や英語が得意とされるビジネスパーソンと英文和訳と和文英訳を競い合った結果、非常に拮抗していたという結果が報告されました。

今回、みらい翻訳の翻訳結果をみたところ、ビジネス文章に関しては精度がよくなったという印象でしたが、医学論文に関してはまだまだという印象を持ちました。ロゼッタが取り組むような専門分野に特化したシステムをそれぞれ構築して専門用語の問題を解決するなど、様々なアプローチにより改善がされ、今後、言語の壁がさらに低くなってほしいものです。

参考資料

※精読率:機械翻訳の実用性を確認する評価軸。翻訳結果において、原文の情報がどの程度翻訳処理結果で読み取れるかを5段階で評価し「5」を満点とする。4から5点の文章の総数を文章全体数で割った割合を精読率として明示し、機械翻訳結果がほぼ修正が必要の無い割合を表す。

機械翻訳サービスの和文英訳がプロ翻訳者レベルに、英文和訳はTOEIC960点レベルを達成

(森裕紀)