Facebookが機械翻訳モデルの大規模トレーニング用データセット「CCMatrix」をリリース:576言語ペア・45億以上の対応テキストで翻訳品質の向上を目指す

課題

自然言語処理(NLP)における現在のアプローチはデータ駆動型(データドリブン)が注目されており、その応用も増えてきました。モデルのトレーニングに使用するデータの規模が重要なのはもちろんですが、同様にデータの質とトピックも重要です。単一言語のテキストは通常は大量に入手できます。しかし、たとえば相互翻訳をおこなう2つの言語の文では(とくに2つの言語に英語を含まない場合)制限されてしまいます。そうした文書の重要な情報源は、欧州議会や国連などの国際機関です。しかし、これらはプロの翻訳者によるものなので、よりフォーマルな言語で書かれており、政治的な話題に限定される傾向があります。

解決方法

今回、Facebookの研究者は、多言語文空間における対応テキストマイニングが、数十億の文の単一言語コーパスに適用できることを示しました。

Facebookが開発したCCMatrixは、翻訳モデルをトレーニングするための高品質な大規模データセットです。576言語ペアの45億以上の並列文で成り、去年公開されたWikiMatrixコーパスの50倍以上の大きさになります。このサイズのデータセットを収集するには、WikiMatrixで使用されていた対応テキストマイニングアプローチを修正する必要がありました。どの文が相互翻訳であるかを決定するために何十億もの文を比較することで生じる計算上の課題に対処するため、研究者らは大規模並列処理と高速類似性検索のための高効率FAISSライブラリを使用しました。

また、このような多数の並列テキストを自動的に生成することを実証するために、研究者らはCCMatrix上でニューラル機械翻訳(NMT)システムを訓練し、それらの性能を既に確立されている基礎的な手法と比較しました。

https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/

どうなったか

今回のモデルでは、ロシア語から英語を含む4つの言語において、機械翻訳(WMT’19)コンペティションで評価された最先端の単一NMTシステムより性能が優れていました。そしてTEDコーパスで試したとき、CCMatrixは他のアプローチと比較して、多くの言語対に対してNMT性能を著しく改善させました。
とくに英語/ドイツ語システムは性能が優れており、また、2019年に開催されたアジア言語翻訳に関するワークショップ(WAT)では、ロシア語と日本語のペアが最も優れた結果を出しました。CCMatrixの登場により、NMTの研究コミュニティは、多数の言語ペアに対してこれまでよりもはるかに大きな対応テキストデータセットを活用できるようになります。これにより、とくにコーパスが比較的限定されたリソースの少ない言語において、効果的なNMTモデルの作成を進めることができます。

まとめ

Facebookは、CCMatrixは大規模性と広範な公開テキストにより、ニューラル機械翻訳のシステム構築のために最も使用されるリソースの1つになるだろうと述べています。どのようにしてCCMatrixを作成したかや、このコーパスを使用して結果を再現するために何が必要な情報はGitHub上で公開されています。

参考資料

(蒲生由紀子)