フェイシャルアクションコーディングシステム(FACS)は、顔の画像にアクションユニット(AU)をエンコードします。これは、顔の表情の分析で広く使用されているため、幅広い研究の注目を集めています。自動顔アクションユニット(AU)検出でうまく機能する多くの方法は、主に対応するローカル筋肉領域間のさまざまなタイプのAU関係のモデリング、または単にグローバルな注意を意識した顔の特徴のマイニングに焦点を当てていますが、ローカル-グローバル特徴間の動的な相互作用を無視しています。表現と個々の特性の多様性のために、AU機能を1つの観点からエンコードするだけでは、地域とグローバルの顔の機能間の豊富なコンテキスト情報、およびAU間の詳細な変動性をキャプチャできない可能性があると主張します。この論文では、顔のAU検出のための新しいマルチレベルグラフリレーショナル推論ネットワーク(MGRR-Netと呼ばれる)を提案します。 MGRR-Netの各レイヤーは、マルチレベル(つまり、領域レベル、ピクセル単位、およびチャネル単位のレベル)の特徴学習を実行します。グラフニューラルネットワークを介したローカル顔パッチ特徴からの領域レベルの特徴学習は、異なるAU間の相関をエンコードできますが、グラフ注意ネットワークを介したピクセル単位およびチャネル単位の特徴学習は、グローバル顔特徴からのAU特徴の識別能力を強化できます。 。 3つのレベルの融合した機能により、AUの識別能力が向上します。 DISFAおよびBP4DAUデータセットに関する広範な実験は、提案されたアプローチが最先端の方法よりも優れたパフォーマンスを達成することを示しています。
The Facial Action Coding System (FACS) encodes the action units (AUs) in facial images, which has attracted extensive research attention due to its wide use in facial expression analysis. Many methods that perform well on automatic facial action unit (AU) detection primarily focus on modeling various types of AU relations between corresponding local muscle areas, or simply mining global attention-aware facial features, however, neglect the dynamic interactions among local-global features. We argue that encoding AU features just from one perspective may not capture the rich contextual information between regional and global face features, as well as the detailed variability across AUs, because of the diversity in expression and individual characteristics. In this paper, we propose a novel Multi-level Graph Relational Reasoning Network (termed MGRR-Net) for facial AU detection. Each layer of MGRR-Net performs a multi-level (i.e., region-level, pixel-wise and channel-wise level) feature learning. While the region-level feature learning from local face patches features via graph neural network can encode the correlation across different AUs, the pixel-wise and channel-wise feature learning via graph attention network can enhance the discrimination ability of AU features from global face features. The fused features from the three levels lead to improved AU discriminative ability. Extensive experiments on DISFA and BP4D AU datasets show that the proposed approach achieves superior performance than the state-of-the-art methods.