多くのモバイルメーカーは最近、より高速なオートフォーカスと美的画像キャプチャのために、主力モデルにデュアルピクセル(DP)センサーを採用しています。それらの利点にもかかわらず、3D顔の理解のためのそれらの使用法に関する研究は、DP画像の視差を利用するデータセットとアルゴリズム設計の欠如のために制限されています。これは、サブアパーチャ画像のベースラインが非常に狭く、焦点ぼけ領域に視差が存在するためです。この論文では、3D顔の形状を再構築するDP指向の深度/通常ネットワークを紹介します。この目的のために、マルチカメラ構造化照明システムでキャプチャされた101人の135Kを超える画像を含むDP顔データを収集します。これには、メートル法の深度マップと表面法線を含む、対応するグラウンドトゥルース3Dモデルが含まれています。私たちのデータセットは、提案されたマッチングネットワークを3D顔の深さ/法線推定のために一般化することを可能にします。提案されたネットワークは、DP画像の焦点ぼけの処理に特化した適応サンプリングモジュールと適応法線モジュールの2つの新しいモジュールで構成されています。最後に、提案された方法は、最近のDPベースの深度/法線推定方法を超える最先端のパフォーマンスを実現します。また、顔のなりすましや再照明に対する推定深度/法線の適用可能性も示します。
Many mobile manufacturers recently have adopted Dual-Pixel (DP) sensors in their flagship models for faster auto-focus and aesthetic image captures. Despite their advantages, research on their usage for 3D facial understanding has been limited due to the lack of datasets and algorithmic designs that exploit parallax in DP images. This is because the baseline of sub-aperture images is extremely narrow and parallax exists in the defocus blur region. In this paper, we introduce a DP-oriented Depth/Normal network that reconstructs the 3D facial geometry. For this purpose, we collect a DP facial data with more than 135K images for 101 persons captured with our multi-camera structured light systems. It contains the corresponding ground-truth 3D models including depth map and surface normal in metric scale. Our dataset allows the proposed matching network to be generalized for 3D facial depth/normal estimation. The proposed network consists of two novel modules: Adaptive Sampling Module and Adaptive Normal Module, which are specialized in handling the defocus blur in DP images. Finally, the proposed method achieves state-of-the-art performances over recent DP-based depth/normal estimation methods. We also demonstrate the applicability of the estimated depth/normal to face spoofing and relighting.