単一の入力画像から顔の3D幾何学的構造を復元することは、コンピュータービジョンにおける挑戦的な活発な研究分野です。この論文では、深層学習と幾何学的手法に基づくハイブリッドアプローチを使用して、単一または複数の画像から3Dヘッドを再構築するための新しい方法を紹介します。 U-netアーキテクチャに基づいて、合成データのみでトレーニングされたエンコーダ-デコーダネットワークを提案します。単一の入力写真から、ピクセル単位の法線ベクトルとランドマークマップの両方を予測します。ランドマークは、ポーズの計算と最適化問題の初期化に使用されます。最適化問題は、パラメトリックなモーフィング可能なモデルと法線ベクトル場を使用して、3Dヘッドジオメトリを再構築します。最先端の結果は、シングルビュー設定とマルチビュー設定の両方での定性的および定量的評価テストを通じて達成されます。モデルは合成データのみでトレーニングされているにもかかわらず、実際の画像の3Dジオメトリと正確なポーズを正常に復元できます。
Recovering the 3D geometric structure of a face from a single input image is a challenging active research area in computer vision. In this paper, we present a novel method for reconstructing 3D heads from a single or multiple image(s) using a hybrid approach based on deep learning and geometric techniques. We propose an encoder-decoder network based on the U-net architecture and trained on synthetic data only. It predicts both pixel-wise normal vectors and landmarks maps from a single input photo. Landmarks are used for the pose computation and the initialization of the optimization problem, which, in turn, reconstructs the 3D head geometry by using a parametric morphable model and normal vector fields. State-of-the-art results are achieved through qualitative and quantitative evaluation tests on both single and multi-view settings. Despite the fact that the model was trained only on synthetic data, it successfully recovers 3D geometry and precise poses for real-world images.