質問に対する回答を自動化するAI技術を開発:インターネットの文書も読解可能に

課題

チャットボットなどAI対話システムにおいては、情報源となる大量のテキストを事前に読み込ませて学習したり、あらかじめ大量のQAペアや応答シナリオを手動で作成しなければならず、コストがかかっていました。

解決方法

株式会社Nextremer株式会社三菱総合研究所は、テキスト情報に問い合わせてその問いに対する答えの獲得を自動化する技術を開発したと発表しました。両社は2017年9月よりAI対話システムに深層学習を用いる共同研究を行っており、今回の技術はその成果となっています。この共同研究において、2019年3月には、日本語文章に問い合わせ、その質問に対する回答を自動抽出する要素技術(抽出型読解AI技術)が開発されました。

近年、研究開発が盛んな質疑応答システムでは、質問文からキーワードを抽出して、答えのありそうな項目をWikipediaなどの大きなデータセットから見つけた上で、その内容となる文章から回答となる適切な単語を抽出したり、質問に対応する回答文を再構成するといったやり方が主流です。このようなシステムを作るためには、質問文からそのキーワード、質問文と回答を含むであろう文章とその解答例というデータセットを用意して学習を行います。学習を行うシステムとしては、BERTなどのニューラルネットワークを使ったシステムで行われるように、教師なしで膨大な文章から言語の構造を捉える事前学習を行なった後で、質疑応答のためのデータセットなどの特定のタスクのための教師データにより再調整(Fine Tuning)を行う手法が主流となっています。BERTを使用した例はMarvinでも紹介しています(ロボットは東大に入れるか:センター試験英語の要約問題に対する BERT を用いた自動解答手法)。

今回の「抽出型読解AI技術」は、約300万単語以上の日本語文章および約10万ペアの質問回答集から深層学習を用いて事前学習させています。事前学習したモデルを使うと、与えられた日本語文章を読み解いて、質問に対する回答を見つけ出すことが可能になります。また、応用例としては、収集したい情報に対して事前に質問を用意すると、インターネット上やハードディスク内にある大量の文章に対して抽出型読解AIが順番に問い合わせを行う、自動情報収集エージェントとしての利用も可能になります。得られた回答を抽出型読解AIが評価し、表の形式に変換するなど、整理されてわかりやすいレポーティングを実現することができます。

https://prtimes.jp/main/html/rd/p/000000056.000017379.html

どうなったか

AI対話システムの初期導入フェーズでは、シナリオ構築の半自動化、運用フェーズにおいてはより多くの質問に答えられるよう回答を増やす、回答を分かりやすく書き換えるなど、半自動化アップデート機能の提供を目指すとのことです。

まとめ

応用例では、従来の人間が情報源の内容を読み、知識を整理するという流れを自動化し、情報収集作業を効率化することができるということになります。この技術をもし私たちも使えるようになれば、インターネット上の大量のニュースや論文を探す作業時間すら減らすことができるのかもしれません。

参考資料

(蒲生由紀子・森裕紀)