この論文では、単一の顔画像を生物物理学パラメータマップ、拡散および鏡面反射シェーディングマップに分解し、シーン光源のスペクトルパワー分布とカメラのスペクトル感度を推定することを学習するディープCNNであるBioFaceNetを紹介します。このネットワークは、空間量を推定するための完全な畳み込みエンコーダーと、ベクトル量を推定するための完全に接続されたブランチを備えています。ネットワークは、モデルベースのデコーダを介して計算された自己監視型の外観損失を使用してトレーニングされます。タスクの制約が非常に低いため、多くのモデルベースの事前優先順位を課します。皮膚のスペクトル反射率は生物物理モデルに制限されています。カメラのスペクトル感度に統計的事前条件、照明スペクトルに物理的制約、鏡面反射に事前にスパース性を、粗い形状プロキシを使用して拡散シェーディングに直接監督を課します。実環境でのデータに関する説得力のある定性的結果を示し、この新しいタスクの定量的評価のベンチマークを紹介します。
In this paper we present BioFaceNet, a deep CNN that learns to decompose a single face image into biophysical parameters maps, diffuse and specular shading maps as well as estimating the spectral power distribution of the scene illuminant and the spectral sensitivity of the camera. The network comprises a fully convolutional encoder for estimating the spatial maps with a fully connected branch for estimating the vector quantities. The network is trained using a self-supervised appearance loss computed via a model-based decoder. The task is highly underconstrained so we impose a number of model-based priors. Skin spectral reflectance is restricted to a biophysical model, we impose a statistical prior on camera spectral sensitivities, a physical constraint on illumination spectra, a sparsity prior on specular reflections and direct supervision on diffuse shading using a rough shape proxy. We show convincing qualitative results on in-the-wild data and introduce a benchmark for quantitative evaluation on this new task.