1枚の画像から服を着た人の3Dモデルを高精度で再現できるディープラーニングの手法「PIFu」

課題

1枚の2次元画像から3次元の造形を推定する深層学習の手法はすでにありましたが、荒い再構成結果になったり、メモリが非常に多く必要だったりという問題がありました。

解決方法

南カリフォルニア大学などによる研究チームは、1枚の画像から服を着た人の3Dモデルを再構築できる手法「Pixel-aligned Implicit Function(PIFu)」を発表しました。単一、または複数の入力画像から服を着た人間の3D形状とテクスチャを生成するディープラーニングを用いて推定します。この手法を用いることで、1枚の画像または複数の画像から複雑なヘアスタイルやしわのあるスカート、ハイヒールのような複雑な形状を3D化しすることができます。また、1枚の入力画像からの場合、被写体の背面など、見えない領域も含めてPIFuは完全に復元できます。

https://arxiv.org/pdf/1905.05172.pdf

PIFuは、スカート、ジャケット、ドレスなど、幅広い衣料に対応しています。著者らの方法は、見えない領域における妥当な3D表面を推測しながら、単一入力画像から完全なテクスチャを推論し、360度で3Dモデルを見ることができます。
動的である衣服を着た人間の動きと複雑な形状が、単一の2D入力から3Dでどのようにデジタル化できるかは動画で示されています。

どうなったか

筆者らは、敵対的生成ネットワーク(Generative Adversarial Networks)を用いて、今回のモデル以上に、より高い解像度外観を推論できると述べています。この研究では衣服を着た人間の表面を扱いましたが、一般的なオブジェクトにどのように拡張するかが問題となります。多様なオブジェクト形状は、ピクセルレベルの特徴からグローバルに一貫した形状を学習することを困難にしますが、将来の研究で解決できると推測されています。また、実際は身体の一部のみがカメラでフレームされることもあるため、部分的に見える設定のオブジェクトも重要になってきます。

まとめ

エンドツーエンドのアプローチであろうと、他のシステムであろうと、著者らは単一のRGB入力からあらゆる任意の3Dオブジェクトをデジタル化することが最終的に可能になると信じており、PIFuはこの目標に向けた重要な第一歩ともいえます。

参考資料

(蒲生由紀子)