注意メカニズムは最近、顔面行動単位(AU)検出の分野でますます注目を集めています。アテンションメカニズムを使用して各AUの関心領域を見つけることにより、AU関連のローカルフィーチャをキャプチャできます。既存のアテンションベースのAU検出作業のほとんどは、事前の知識を使用して固定アテンションを事前定義するか、事前定義されたアテンションを小さな範囲内で改良するため、さまざまなAUをモデル化する能力が制限されます。この論文では、エンドツーエンドのディープラーニングに基づく注意と、これまでに調査されていないAUラベルのみのAU検出のための関係学習フレームワークを提案します。特に、各AUで共有されるマルチスケールフィーチャが最初に学習され、次にAU関連のローカルフィーチャを選択および抽出するために、チャネルごとの注意と空間的注意の両方が適応的に学習されます。さらに、AUのピクセルレベルの関係をさらにキャプチャして、空間的な注意を絞り込み、より関連性の高いローカルフィーチャを抽出します。ネットワークアーキテクチャを変更することなく、フレームワークを簡単に拡張してAU強度を推定できます。広範な実験により、(i)困難なBP4D、DISFA、FERA 2015、およびBP4D +ベンチマークでのAU検出およびAU強度推定の両方について、(i)最先端の手法よりも優れたパフォーマンスを発揮し、(ii)相関領域を適応的にキャプチャできることが示されています各AUの(iii)厳しいオクルージョンと大きなポーズの下でもうまく機能します。
Attention mechanism has recently attracted increasing attentions in the field of facial action unit (AU) detection. By finding the region of interest of each AU with the attention mechanism, AU-related local features can be captured. Most of the existing attention based AU detection works use prior knowledge to predefine fixed attentions or refine the predefined attentions within a small range, which limits their capacity to model various AUs. In this paper, we propose an end-to-end deep learning based attention and relation learning framework for AU detection with only AU labels, which has not been explored before. In particular, multi-scale features shared by each AU are learned firstly, and then both channel-wise and spatial attentions are adaptively learned to select and extract AU-related local features. Moreover, pixel-level relations for AUs are further captured to refine spatial attentions so as to extract more relevant local features. Without changing the network architecture, our framework can be easily extended for AU intensity estimation. Extensive experiments show that our framework (i) soundly outperforms the state-of-the-art methods for both AU detection and AU intensity estimation on the challenging BP4D, DISFA, FERA 2015 and BP4D+ benchmarks, (ii) can adaptively capture the correlated regions of each AU, and (iii) also works well under severe occlusions and large poses.