arXiv reaDer
単眼3D顔再構成のための自己監視ロバスト化ガイダンス
Self-Supervised Robustifying Guidance for Monocular 3D Face Reconstruction
閉塞したノイズの多い顔画像からの3D顔再構成の最近の開発にもかかわらず、パフォーマンスは依然として不十分です。主な課題の1つは、顔画像の中程度から重度のオクルージョンを処理することです。さらに、顔画像のノイズは顔の属性の正しいキャプチャを妨げるため、確実に対処する必要があります。さらに、ほとんどの既存の方法は追加の依存関係に依存しており、トレーニング手順に多くの制約を課しています。したがって、顔画像のオクルージョンとノイズに対するロバスト性を取得するために、自己監視型RObustifying GUidancE(ROGUE)フレームワークを提案します。提案されたネットワークには、1)クリーンな顔の3D顔係数を取得するためのガイダンスパイプライン、および2)オクルージョンまたはノイズの多い画像の推定係数とクリーンな対応物との間の整合性を取得するためのロバスト化パイプラインが含まれます。提案された画像レベルおよび機能レベルの損失関数は、追加の依存関係を提起することなく、ROGUE学習プロセスを支援します。 CelebAのテストデータセットの3つのバリエーション、有理オクルージョン、妄想オクルージョン、ノイズの多い顔画像では、この方法は現在の最先端の方法よりも大幅に優れています(たとえば、形状ベースの3D頂点エラーの場合、合理的なオクルージョンの場合は0.146から0.048に、妄想的なオクルージョンの場合は0.292から0.061に、顔画像のノイズの場合は0.269から0.053に減少し、提案されたアプローチの有効性を示しています。
Despite the recent developments in 3D Face Reconstruction from occluded and noisy face images, the performance is still unsatisfactory. One of the main challenges is to handle moderate to heavy occlusions in the face images. In addition, the noise in the face images inhibits the correct capture of facial attributes, thus needing to be reliably addressed. Moreover, most existing methods rely on additional dependencies, posing numerous constraints over the training procedure. Therefore, we propose a Self-Supervised RObustifying GUidancE (ROGUE) framework to obtain robustness against occlusions and noise in the face images. The proposed network contains 1) the Guidance Pipeline to obtain the 3D face coefficients for the clean faces, and 2) the Robustification Pipeline to acquire the consistency between the estimated coefficients for occluded or noisy images and the clean counterpart. The proposed image- and feature-level loss functions aid the ROGUE learning process without posing additional dependencies. On the three variations of the test dataset of CelebA: rational occlusions, delusional occlusions, and noisy face images, our method outperforms the current state-of-the-art method by large margins (e.g., for the shape-based 3D vertex errors, a reduction from 0.146 to 0.048 for rational occlusions, from 0.292 to 0.061 for delusional occlusions and from 0.269 to 0.053 for the noise in the face images), demonstrating the effectiveness of the proposed approach.
updated: Wed Dec 29 2021 03:30:50 GMT+0000 (UTC)
published: Wed Dec 29 2021 03:30:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト