動画を鑑賞することで文章の意味をより良く理解する人工知能の提案

課題

これまで、人と対話するための人工システムの多くは、対象となる状況を限定することで人がルールを構築し、そのルールに従って質問への応答や質問文を生成していました。しかしこのようなシステムでは実際に文章の意味を理解しているとは言い難く、より柔軟な対話システムの開発が望まれています。近年のディープラーニング技術の進展により、大量の質問応答コーパス(文章のデータセット)を用いることで様々な質問に返答可能な人工知能システムの開発も進んでいますがその能力は限定的であり、またコーパスの作成には非常に多くの時間を必要とします。
人間の子どもが日常生活の中で自身の会話の意味や文章の構造を学ぶように、人工知能が言語を学習することができれば、より高度な家庭環境で活躍するロボットや音声認識システムを開発することが可能になります。このような課題に対して、マサチューセッツ工科大学(以下MIT)の研究者グループは、動画に含まれる物体や人の情報とその動画に付随したキャプションから文章の構造や言葉を学習する人工知能システムを開発しました。この人工知能システムは、自然言語処理に関する国際会議、Conference on Empirical Methods in Natural Language Processing(EMNLP2018)において報告されました。

解決方法

人工システムに文章や言葉の意味を理解させる「自然言語処理」の分野ではこれまで、大量の文書データを人工システムに学習させることで人間のように言葉を理解する人工知能が研究されていました。今回の人工知能システムを開発したCandace Ross氏を始めとするMITの研究者チームは、文章のみならず画像情報、特に動画の情報を利用することによって文章の構造やその意味を認識するための手法を提案しました。提案手法では動画中に含まれる、「人」、「行動」、「物体」、の情報と、その動画に付与されているキャプション(ここでは動画の状況を説明する文章で例えば「女性がリンゴをつかんでいる」など)を同時に学習させます。
具体的な学習手法としては、まずパーサーと呼ばれる構文解析器が与えられたキャプションを論理的な構造に変換します。ここで論理的な構造に変換するとは、例えば「女性がリンゴをつかんでいる」という文章に対しては、「λxy.女性 x, つかむ x y, リンゴ y」といった数理論理学的な表現を得ることに相当します。これに対して動画中で認識された物体や人、その行動の時系列情報が与えられます。複数の動画のキャプションと動画中に含まれる物体などの時系列列情報が与えられた際に、これらの関係を獲得する中でより誤差が小さくなるようにパーサーの分析結果を変化させていくことで、動画に対応した文章が生成できるように学習を進めます。学習している言語が1種類であれば、文法構造の制約によってみている動画の情報とパーサーが生成する文章の論理構造が一意に決定するようになります。
より詳細な学習手法に関してはこちらの文献をご覧ください。

どうなったか

提案手法の有用性を示すために、人が物体を操作したり動作する様子を捉えた複数の動画を提案モデルに学習させました。学習に用いた動画のキャプションにはクラウドソーシングによって複数の人が作成した文章を利用しています。また動画中の物体や人、人の行動情報の認識には、一般物体に認識を行うYOLO(You only look once)や人の骨格情報を検出するOpenPoseといったディープラーニング技術を用いた画像認識手法を利用しました。
約400種類の動画に対して1200種類のキャプションが付与されたデータにおいて、840個のデータを学習に、残りの360個のデータを用いて性能の評価を行ったところ、単純に言語情報のみを学習するモデルよりも文章入力に対するパーサーの構文解析結果が向上しました。また動画から抽出する情報として物体情報のみに制限したモデルと比較して、人や行動の情報を加えた提案モデルの方が20倍以上の解析性能を示しました。
実際に提案手法が生成した文章やその解析結果に関してはこちらをご覧ください。

まとめ

動画に含まれている物体や人、そして行動の情報とその動画を説明するキャプションを利用することで、文章の意味を理解するための学習を行う人工知能システムについて紹介しました。MITの研究チームは提案するこの学習方法に関して、「人の幼児が日常生活の中で言語を学習していく方法と対応している」と述べています。この手法を利用することで、コミュニケーションロボットや家庭環境で活躍するロボットが、人とのやり取りを通して言葉の意味を学習することが可能になるかもしれません。またOpenPoseやYOLOなど、ディープラーニング技術を用いた手法を異なる分野のディープラーニング技術の開発のためのデータセット構築に応用する取り組みが今後重要になっていくかもしれません。
OpenPoseに関してはこちらの記事もご参照ください。

参考資料

(堀井隆斗)