閉じてしまった目もぱっちり:人工知能による写真修正技術

課題

スマートフォンやSNSの普及により、普段の食事や旅行先での写真を撮影し、気に入ったものをSNSで共有する機会が多くなっています。そんな中で友人と集合写真を撮影した際に自分だけが目を閉じてしまい写真が台無しになってしまった経験もあるでしょう。
今回、FacebookのBrain Dolhansky氏とCristian Canton Ferrer氏が発表した技術は、このように写真の中で「閉じてしまった目」を開くことができるディープラーニングモデルになります。この技術は画像処理に関する国際会議であるCVPR2018で発表されました。

解決方法

これまでにも画像の欠損部(今回の場合は閉じてしまって見えなくなった目)を復元するディープラーニングの手法は複数提案されていました。例えばCVPR2017で発表されたモデル畳み込みニューラルネットワークを利用することで画像シーンの全体的かつ局所的な特徴の整合性を考慮して欠損部を復元することができます。しかし今回の課題のように、閉じられた目を復元する際にはその人の目の特徴(形や色)を保って復元することができませんでした。
Dolhansky氏らが発表した手法では、ディープラーニングの手法の中でも近年特に注目されている敵対的生成モデル(Generative Adversarial Network:GAN)を利用し、対象となる人の別の画像を復元条件に加えることでより本物に近い画像に復元することができます。これはGANのモデルの中でもConditional GANと呼ばれる手法で、生成する画像に条件付けを行う(例えば数字画像を生成する際に「1」の画像を生成するように拘束をかける)手法になります。

どうなったか

非常に大量のデータ(20万人の顔画像が1人につき少なくとも3枚は含まれる、合計200万枚の顔画像データベース)を用いて提案モデルを学習させることで、目が閉じられてしまっている画像から目を開けている画像へ変換することができました。定量的な評価指標においてもこれまでのディープラーニングモデルよりも良い性能を示しました。また写真家に、復元条件に利用した画像と目を閉じていない画像の組み合わせと、同じ復元条件画像と提案モデルが復元した画像の組み合わせを提示し、どちらが復元された画像でないかを選択させたところ、正解率は54%だったようです。髪の毛や眼鏡による復元失敗の影響があるようですが、今後の追加学習によってその性能は改善される見込みだとDolhansky氏らは述べています。実際に復元された画像はここで確認することができます。

まとめ

ディープラーニングの手法、特に近年注目されているGANと呼ばれる手法を利用することで写真の中で「閉じてしまっている目」を開かせることに成功しました。この手法によりこれまでPCやスマートフォンの中で眠るしかなかった写真を公開することができるかもしれません。
一方で提案モデルの学習には非常に大量の顔画像が必要になります。学習に利用されたデータセットも一部しか公開されておらず、モデルの実装例も未公開です(有志による実装例はここ公開されています)。これは顔画像データを大量に保持しているFacebook社だからこそできた技術だといえます。まずは手元に利用可能なデータが無いか探してみることがビジネスチャンスにつながるかもしれません。

参考資料

(堀井隆斗)