ロボットは東大に入れるか:センター試験英語の要約問題に対する BERT を用いた自動解答手法

課題

人間の思考プロセスの再現は、次の人工知能の研究として狙うべきところです。2016年に一旦幕引きを図るも今もなおそのチャレンジが続いているのが「ロボットは東大に入れるのか」プロジェクト。プロジェクトが始動する前、大学受験のような複合的能力が要求される情報処理は未だかつて手つかずでしたが、よりコンピュータを人間らしい能力にすべく「含意関係認識」という手法を用いるなどして成果を上げつつあります。

最初はセンター試験、後半は二次試験をロボットに解かせるのがプロジェクトの目標でした。東大入試を突破できる計算機プログラムの開発を経て、現在では、意味に基づく検索、対話システム、実世界ロボットのインタフェースなど、汎用的なシステムへの応用への活用が模索されています。その過程で生まれてきた最先端の自然言語処理技術の利用法については未だ試行錯誤が続いています。

解決方法

NTTコミュニケーション科学基礎研究所 コミュニケーション環境研究グループの杉山弘晃氏らは、センター英語意見要旨把握問題に対する BERT の適用方法の検討を、 2019年3月の言語処理学会で発表しました。BERT とは Google が2018年11月のブログ記事で発表した最新の自然言語処理トレーニング技術です。

初期のニューラルネットワークを用いた自然言語処理モデルでは、対象としているタスク(例えば質問に対する応答生成など)に特化した言語データセットを用いてモデルの学習を行うことが一般的でした。その後word2vecに代表されるような分散表現モデルではwikipedia等の大規模な言語データセットを用いて単語間の関係性を学習し、その情報を言語処理タスクの素性として利用することで所望の問題を解きます。このような手法はFeature basedアプローチと呼ばれ、近年ではELMoなどのモデルが提案されています。

一方でGoogleの発表したBERTはFine-tuneingアプローチと呼ばれる手法であり、基本となるモデルを大量の言語データセットが学習したのちに所望のタスクに対応する出力層(例えば入力された文章が正解か否かを判別するタスクでは2値のラベル出力ノードを、入力された文章に対する返答を出力するタスクでは単語を出力するノード)をモデルに付加し、教師あり学習を実施します。これまでFine-tuneingアプローチとしてはOpanAIの提案したGPTが様々なタスクにおいて良い性能を出すことが知られていました。このGPTはTransformerと呼ばれるアテンション構造を利用した言語モデルを多層化することで性能向上を図ったモデルになります。GPTでは事前学習として入力された文章から次の単語情報を予測する学習を行います。この際、文章中の単語を予測するためには、その単語よりも前半の単語を用いることしかできないため(予測する単語よりも後半の情報を利用するとリーク(カンニング)になる恐れがあるため)、GPTは単方向Transformerと呼ばれます。BERTもGPTと同様のにTransformerによって構成されていますが、事前学習において入力された文章の穴抜き個所を予測するという手法を利用することで双方向の情報のやり取りが可能なモデル構造となり、様々な言語処理タスクにおいてGPTよりも高い性能を発揮させることに成功しました。BERTやその構成要素であるTransformerに関するより詳細な情報はこちらこちらをご参照ください。

今回の研究では、従来の深層学習ベースのモデルの一方、近年世界的に注目されているアプローチのひとつである BERT を意見要旨把握問題に適用し、さまざまな角度から有用性や適用方法を比較分析しようという試みです。

どうなったか

杉山氏らは意見要旨把握問題においてGPTとBERTの性能を比較するために、OpanAIの公開するGPTの事前学習モデルとGoogleの公開するBERTの事前学習モデル(baseとlarge)に対して、中国人中高生向けの英語試験データセットであるRACEを利用した追加学習を実施しました。それぞれの性能評価には、大学入試センター試験の本試験および追試験の過去問、代ゼミセンター模試、ベネッセ模試、独自に収集したその他の問題を合わせた合計234問をベンチマークデータとして利用しました。

比較実験の結果、GPT、BERT(baseモデル)、BERT(largeモデル)の順に正答率が向上し、モデルの変更とモデルサイズの大規模化によって性能が向上することが確認されました。BERT(largeモデル)での正答率は最大の条件で約68%となりました。また実験結果を解析したところ、モデルをGPTからBERTへ変更したことによって表現間の大まかな意味的距離(単語間の関係性など)の推定性能が向上したと考えられるようです。

まとめ

今年度の言語処理学会では BERT を表題とする論文が4本(BERT による日本語構文解析の精度向上BERT を用いた機械翻訳の自動評価行政対話システムにおける検索エンジンTSUBAKIとBERTを併用したFAQ検索の高度化)ありました。企業においても機械読解分野で新たな展望をもたらすであろう BERT ですが、更なる活用方法、限界点などの議論は今年の研究の焦点となる可能性が高いと考えられます。

参考資料

(蒲生 由紀子)