ディープラーニングを利用した生成モデルの事例紹介:GAN作は人間のクリエイティビティを脅かすか

課題

最近、人工知能によって描かれた肖像画がオークションによって約4900万円で落札されました。このニュースは、その主な手法である敵対的生成ネットワーク(GAN: Generative Adversarial Networks)と贋作をかけてGAN作と呼ばれたりして、Twitterなどで話題となりました。この事例を始め、絵画(画像)や動画、音楽など、一般にクリエイティブな活動であるとされるコンテンツの生成を、自動で行う人工知能の研究開発が盛り上がっています。このあと事例を紹介していきますが、人工知能にクリエイティブな仕事は不可能であるという、従来の考え方は通用しなくなってきていることを実感できると思います。本記事では、クリエイティブな人工知能モデルと実際に生成されたコンテンツの事例を紹介します。

解決方法

学習用に用意されたデータを元に新たなデータ(クリエイティブな作品)を生成するモデルは、一般に、生成モデルと呼ばれ、確率によって定義される手法を利用しています。この手法の原理を、生成する作品が画像である場合を想定して簡単に説明します。鍵になるのは、生成するデータの次元(値の数)の大きさと潜在変数です。

生成モデルでは、学習用に用意された画像データの集まりがある理想的な確率分布から抽出されていると仮定します。例えば、画像ならば100ピクセルx100ピクセルの荒い画像だとしても赤・緑・青の三原色を考慮すると、3万次元のデータを生成することとなり、非常に大きいことがわかります。しかし、一般に人間が見て意味を持っていると考えられる画像データの自由度は次元数ほど大きくなく、それより次元の小さい空間へと圧縮することが可能です。テレビの砂嵐のように人間にとって意味のない画像の方が、意味がある画像よりも圧倒的に多いと考えられますが、これを「多様体仮説」と呼ぶこともあります。生成したい画像がある特定のジャンルの画像である場合はさらに自由度が限定され、少ない次元で表現することができます。

また、生成モデルでは、潜在変数と呼ばれる普段画像からは直接観測できない(架空の)値を用意し、この潜在変数もある確率分布に従っていると仮定しています。この潜在変数の次元(自由に変化できる値の数)は画像データの次元よりも極端に小さく設定します。生成モデルの考え方では、この潜在変数が全ての画像を表現しており、潜在変数を自由に決定すると即座に画像が「生成」されます。

そのため、生成モデルの学習の目標は、単純な確率分布で表現される潜在変数から、複雑であるがある種の傾向のある画像データへの変換を獲得することになります。

本来このような生成モデルは、画像のように次元数が大きい場合、学習するのが容易ではありませんでした。しかし、近年のディープラーニング研究によって生成モデルの学習が大きく進歩しました。敵対的生成ネットワーク(GAN)や変分オードエンコーダ(VAE)と呼ばれる手法は、潜在変数から生成データへの変換をディープラーニングで近似して学習する手法であり、生成モデルの学習を大きく進歩させました。

この記事では説明しませんが、中でも深層畳み込みGAN(DCGAN)Cycle GANをはじめ、GANの進歩は素晴らしく、主に画像生成分野の研究が活発に進みました。

どうなったか

GANによって生成されたクリエイティブな作品および生成モデルを利用した支援ソフトウェアを紹介します。

株式会社データグリッドによるIdols created by AIはアイドル生成AIです。潜在変数を連続的に切り替えることで、アイドルの画像が連続的に変化し、どの時点においても自然な人間の顔が実現できていることが確認できます。これがGANによる学習成果の大きな特徴です。

Make Girls.moeは「髪の色」「髪型」「目の色」などの条件を設定することで、美少女キャラクターを生成してくれるサービスです。

NVIDIAはセレブっぽい写真を高精度に生成するモデルを発表しています。先述のアイドル生成AI同様、連続的に本物と見分けのつかない画像を生成することに成功しています。

MicrosoftのStoryRemixは動画を簡単に作ることのできる支援ソフトウェアですが、自動で動画情報を解析して登場人物を識別することで、登場人物ごとに最適化されたムービーを自動生成したり、3Dオブジェクトを合成してSFさながらの動画を作成することができます。

AdobeのAdobe Senseiは画像やイラスト、アニメーションの意味を理解する能力を備えていおり、手間のかかる反復作業の時間を減らし、クリエイティブな作業に集中できるよう支援してくれるソフトウェアです。生成モデルによってクリエイターをアシストする機能を数多くパッケージとして利用できる創作活動のプラットフォームを作っています。

馬の写真をシマウマに変換するCycle GANと呼ばれるモデルでは、生成先の情報をコントロールして、動物の皮膚の模様や風景を夏から冬景色にするなどの加工ができます。

画像以外にも、音楽生成なども研究開発も進んでいます。音楽の事例についてはDeep Learningを用いた音楽生成手法のまとめ [サーベイ]などで紹介されています。

まとめ

人工知能によって描かれたGAN作の肖像画がオークションによって約4900万円で落札され話題となりました。このようにディープラーニングによる生成モデルの進展により、不可能であると考えられてきたクリエイティブな作品の生成が可能になってきています。これに伴い、クリエイティブな作品を作るクリエイターが必要とされなくなる時代が来ることを必要以上に危惧した意見を散見します。一方でAdobe Senseiのように生成モデルを利用した、クリエイティブな活動を行うユーザの支援ソフトウェアなど、クリエイターが作品を制作しやすくなる環境が整ってきているという見方をすることもできます。

現状では、用意されたデータセットの「内側」のデータしか生成しないことを前提として研究開発が行われています。もう少し踏み込むと、「外側」のデータの生成もできますが評価できないために、無視するか外側のデータを生成できないように制約をかけてしまいます。この訓練データの外側へ飛び出すためには美学的な評価、社会的な評判などの要素をモデルの構築に入れる必要がありますが、一筋縄ではいきません。もしかすると、このような本質的な状況が人工知能によるクリエイティビティの限界なのかもしれません。

生成された画像などに対する評価はクリエイター自身が行う必要があるとすれば、クリエイターの役割は生成モデルを新しい絵筆として使いこなしつつ、生成された作品への評価をし、さらに組み合わせて自分自身の作品としていく制作過程が徐々に普通になっていくでしょう。クリエイティブな業界に既存のソフトウェアの機能として人工知能が導入されていくと、人間の活躍を圧迫する自律的な人工知能ではなく、知能を持つ道具としての側面が改めて注目されるのではないでしょうか?

参考資料

人工知能で写真と見分けがつかない画像を作成する学習手法、GANの歴史
AIが自動でプロ並みのムービー編集&加工をしてくれる「Story Remix」をMicrosoftが発表、3Dを使ったムービーも簡単に作成可能[Gigazine]
Adobe Sensei
Deep Learningを用いた音楽生成手法のまとめ [サーベイ]

(澤 弘樹)