プレゼンはお任せください:人から学ぶジェスチャーAIでロボットのプレゼンテーション能力を向上
課題
大日本印刷株式会社(DNP)と電気通信大学の長井隆行教授はプレゼンテーションの内容に応じて効果的にジェスチャーを生成するロボット向け人工知能を開発し、2018年度人工知能学会全国大会において研究成果を発表しました。
プレゼンテーションにおけるロボットのジェスチャーは開発者によって設計されることが一般的です。しかしコンテンツやロボットの多様化に伴い効果的なジェスチャーを作りこむことが困難になってきています。そこでプレゼンテーションコンテンツである文章からプレゼンテーションに最適なジェスチャーを自動生成する人工知能の手法を開発しています。
解決方法
インターネット上に公開されている人間のプレゼンテーション動画から、骨格推定器(オープンポーズ:OpenPose)と畳み込みニューラルネットワーク(CNN)を用いた3次元復元器(モノキャプ:MonoCap)を用いて3次元姿勢情報を抽出し、ディープラーニングの一種である再帰型ニューラルネットワーク(ロング・ショートタームメモリ:LSTM)を用いた系列変換手法(シーケンス・トゥ・シーケンス:seq2seq)により音声とジェスチャーの関係を学習しました。
どうなったか
提案したジェスチャーAIを用いてインターネット上の講演動画(音声)からロボットのジェスチャーを生成しました。生成された動作では「大きい」や「小さい」等の形容詞に対応する自然な強調動作や、「食べる」等の動詞に対する動作が合成されました。また元の講演動画と比較しても不自然さの少ない動作が生成されたことが確認されました。
まとめ
今後様々な場面で活躍が期待されているプレゼンテーションロボットのためのジェスチャー生成手法を提案しました。これまでディープラーニングを用いた手法は大量の学習データを必要としていましたが、インターネット上に公開されている動画から人間の姿勢情報を抽出することでロボットのジェスチャー生成を可能にしています。また注目されている手法は動画や音声など異なる情報間での系列変換への応用が可能です。今回の記事では音声情報からジェスチャーの生成でしたが、提案手法を応用することで文章やプレゼンテーションスライドからのジェスチャー生成が可能になるかもしれません。
参考資料
論文タイトル : 系列変換モデルを用いたプレゼンテーション動作の生成
発表学会 : 人工知能学会全国大会(第32回), 2018年6月5日(火) 〜6月8日(金)
発表者 : 嶋津彰仁1、日永田智絵1、長井隆行1、中村友昭1、武田祐樹2、原豪紀2、中川修2、前田強2 1電気通信大学 2大日本印刷