これからのゲーム開発を加速させるのは人工知能!:DeNAの「逆転オセロニア」における強化学習を用いたゲームバランス調整に関する取り組み

課題

AlphaGoに代表される深層強化学習を用いた技術により、取りうる状態数が多く様々な戦略を相手取る対戦ゲームにおいて人間のプロプレーヤーに勝る行動選択が可能な人工知能システムが開発されています(AlphaGoの詳細についてはこちらもご参照ください)。しかしこのようなゲーム課題は、人工知能エージェントが選択可能な行動の種類があらかじめ固定長の行動選択肢として与えられていました(例えば以後の場合は駒を置く場所、テレビゲームであればコントローラのボタン数など)。そのため近年数多くリリースされているスマートフォン向けアプリケーションゲームでは、ゲームの更新に従い選択可能な行動数が増加することから、これまでの手法を適応することは困難でした。
この問題に対し、株式会社ディー・エヌ・エー(以下DeNA)の甲野佑らは、DeNAでサービスを提供している対戦ゲームアプリケーションの「逆転オセロニア」においてゲームの状態変化から人工知能エージェントが選択可能な行動選択肢を固定長の数値で表現する手法を開発し、2018年度人工知能学会全国大会において研究成果を発表しました。

解決方法

DeNAがサービスを提供する「逆転オセロニア」は、オセロの基本ルールに対しさらに各プレーヤーの白と黒の駒(キャラクター)が能力(スキル)を持ったゲームになっています。単純なオセロであれば駒に特殊性はないため、人工知能エージェントの行動選択肢は学習時も運用時においても盤面の各マスに駒を置くという決まった数の行動で表現可能です。しかし「逆転オセロニア」の場合は各キャラクターがスキルを有するために行動選択肢の数=盤面中の駒を置ける場所×手持ちの駒の種類、となり膨大になることや、ゲームサービスの更新に伴い新しく駒が配信されることでこれまで学習した人工知能エージェントを使いまわせないという問題がありました。
甲野らは自然言語処理の技術に着目し、プレイヤーログ(実際のゲームユーザーが行ったゲーム内の履歴)からプレイヤーの選択した駒とその選択がゲームに与えた影響(ゲーム状態の遷移)をニューラルネットワークを用いて学習することで、行動選択に対する低次元の特徴表現を獲得しました。具体的には自然言語処理の分野において提案された話者の特徴を表現ベクトルとして埋め込むペルソナモデルを元に、ゲームにおける状態行動対の中の離散的な行動要素を表現ベクトルとして獲得する方式です。

どうなったか

提案する表現学習とプレイヤーログを利用した教師あり学習を用いて「逆転オセロニア」における対戦用人工知能の学習を行ったところ、これまでの非常に多くの行動選択肢を利用していた人工知能モデルと比較してゲームの勝率を同程度に保ちながら学習時間を約20%まで低減させることに成功しました。また提案する表現学習と強化学習を用いた人工知能エージェントにおいても従来手法(非常に多くの行動選択肢を利用していた人工知能モデル)と同程度の勝率を達成することが可能であることが示されました。この対戦用人工知能はゲームシステムの評価や新しく導入する駒(キャラクター)の試験に利用することが可能であり、学習時間が短くなることはゲーム開発が効率化されることにつながります。さらに強化学習を利用した人工知能エージェントを互いに対戦・学習させることで、より強力な人工知能エージェントの構築が可能になります。

まとめ

DeNAにおけるゲームサービスのための人工知能技術に関する取り組みについて紹介しました。提案された手法は研究成果の報告だけでなく、実際にサービスの運用にも利用されているようです。
ゲーム開発における人工知能技術、特に強化学習などの導入はこれから注目が集まる課題だと思われます。DeNAは「逆転オセロニア」以外でも人工知能技術をゲーム開発に応用したり(人工知能がアバターを無限に作り出す!?:アニメキャラの高画質な全身画像と動きを生成する技術 [Marvin])、DeNA TechConSHIBUYA SYNAPSEなどの技術報告会・勉強会も開催しています。

参考資料

(堀井隆斗)