arXiv reaDer
カスケード変換器による正確な顔ランドマーク検出に向けて
Towards Accurate Facial Landmark Detection via Cascaded Transformers
正確な顔のランドマークは、人間の顔に関連する多くのタスクにとって不可欠な前提条件です。本論文では,カスケード変換器に基づく正確な顔ランドマーク検出器を提案した。モデルをエンドツーエンドでトレーニングできるように、顔のランドマーク検出を座標回帰タスクとして定式化します。トランスフォーマーの自己注意により、モデルはランドマーク間の構造化された関係を本質的に活用できます。これは、大きなポーズやオクルージョンなどの困難な条件下でのランドマーク検出に役立ちます。カスケード リファインメント中に、私たちのモデルは、変形可能なアテンション メカニズムに基づいて、座標予測のためにターゲット ランドマーク周辺の最も関連性の高い画像特徴を抽出できるため、より正確な位置合わせが可能になります。さらに、画像の特徴とランドマークの位置を同時に調整する新しいデコーダーを提案します。パラメータを少し増やすだけで、検出性能がさらに向上します。私たちのモデルは、いくつかの標準的な顔ランドマーク検出ベンチマークで新しい最先端のパフォーマンスを達成し、クロスデータセット評価で優れた一般化能力を示しています。
Accurate facial landmarks are essential prerequisites for many tasks related to human faces. In this paper, an accurate facial landmark detector is proposed based on cascaded transformers. We formulate facial landmark detection as a coordinate regression task such that the model can be trained end-to-end. With self-attention in transformers, our model can inherently exploit the structured relationships between landmarks, which would benefit landmark detection under challenging conditions such as large pose and occlusion. During cascaded refinement, our model is able to extract the most relevant image features around the target landmark for coordinate prediction, based on deformable attention mechanism, thus bringing more accurate alignment. In addition, we propose a novel decoder that refines image features and landmark positions simultaneously. With few parameter increasing, the detection performance improves further. Our model achieves new state-of-the-art performance on several standard facial landmark detection benchmarks, and shows good generalization ability in cross-dataset evaluation.
updated: Tue Aug 23 2022 08:42:13 GMT+0000 (UTC)
published: Tue Aug 23 2022 08:42:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト