多言語言い換えデータセット:自然言語処理の意味把握能力を向上させるGoogleの取り組み

Paraphrase word concept pm cubes.

課題

自然言語処理において「意味」を扱うことは実は困難で、二つの文が同じ意味を持つのか違う意味を持つのかを判断するだけでも非常に難しい問題です。特に、ほとんどの単語が共通しているにも関わらず、単語の順番や少数の単語の違いで全く正反対の意味になることも多くで、自然言語処理の精度の向上を妨げる原因になってきました。

近年の機械学習による自然言語処理において「意味が理解できる」ことを真面目に扱う事は回避されることが多くなっています。例えば、近年のWord2Vecなどのモデルでは、大量の文章のデータに基づいてモデルを学習しています。これにより、明示的な単語の定義がなくても、単語を連続的な多次元空間に配置することで意味のような構造を構成し、精度の高い処理を実現しています。しかし、似た状況で使われる単語が近くに位置するものの、それに伴って反対の意味の単語が空間的に近くに配置される場合があるなど、さらなる精度向上のために多くのモデルが提案されています。

意味を直接扱おうとする研究に関しては、古くは1985年に始められたプリンストン大学の心理学教授だったジョージ・ミラーによるWordNet(英語版日本語版)の取り組みが有名です。WordNetでは単語の意味を類似性や反対語、上位語・下位語などの単語間の関係性として定義して、人間の研究者が地道にデータベースを構築しています。しかし、単語の意味構造のネットワークの構築も文脈依存の意味を含めると非常に難しい問題で、単語のみで意味を扱うことの限界も指摘されています。

解決方法

Googleは、2019年4月に英語版の言い換え文章データセットPAWS(Paraphrase Adversaries from Word Scrambling)を、2019年8月にはフランス語、スペイン語、ドイツ語、中国語、日本語、韓国語で人間と機械翻訳により翻訳された多言語文章データセットPAWS-Xを公開しました。この中には、意味的に同等でも異なる表現や語順となっている文章や、単語がほとんど同じであるにも関わらず異なる意味となっている文章が含まれています。

英語版は Quora Question Pairs (QQP) とWikipediaから得られた文章に対して、言い換え文を作り108,463組の言い換え文ペアと非言い換え文ペアがまとめられています。また、多言語の場合にも同様にWikipediaなどから文章を選び、23,659ペアを人間による翻訳、296,406ペアを機械翻訳によるペアとしてまとめています。

どうなったか

英語版では以下の表にあるような文が含まれ、言い換えになっている場合となっていない場合が正解ラベル付きでまとめられています。

https://arxiv.org/abs/1904.01130
代表的なモデルとデータセットを使った場合の結果。Yが言い換え、Nが非言い換えで、太字がそれぞれの手法で正解した結果。(5)のみ言い換え分で、その他は非言い換え文。モデルをBERT、データセットをQQPとPAWSを組み合わせた場合で全て正解している。

言い換え文は、単語の順番を入れ替える方法や、英語から他の言語へ自動翻訳した後でもう一度英語に翻訳し直す逆翻訳(Back Translation)の手法でも作成しています。

https://arxiv.org/abs/1904.01130
https://arxiv.org/abs/1904.01130

また、日本語を含む多言語バージョンでは、以下のような文章を含むデータセットとなっています。この表では非言い換え文ですが、似通った単語により構成されていて、単純な処理では判断ができないものになっています。また、この他に言い換えとなっている文章も収録されています。

https://arxiv.org/abs/1908.11828
映画”Vampire Assassin”英語版Wikipediaページより
非言い換え文の例

このデータセットの評価として、言い換え文と非言い換え文を判断するテストでは、既存のデータセットのみを使用した場合とPAWSを追加した場合で比較されました。機械学習モデルをBERT、データセットをQuora Question Pairsとした組み合わせでは33.5%の精度だった課題で、BERTとQQP+PAWSの組み合わせで83.1%の精度だったと報告しています。

まとめ

意味の同義性と非同義性を適切に扱うことは自然言語処理技術の主要課題ですが、直接的な単語の定義の厳密化よりも適切なデータセットの整備によって解決されるかもしれません。言語の意味に迫る技術的な試みは、このように、じりじりと外堀を埋めるように進められるのかもしれません。

参考資料

(森裕紀)