arXiv reaDer
顔アクション ユニット検出のためのグローバルからローカルへの表現認識埋め込み
Global-to-local Expression-aware Embeddings for Facial Action Unit Detection
表情と顔のアクション ユニット (AU) は、2 つのレベルの顔の動作記述子です。表現補助情報は、AU 検出パフォーマンスを向上させるために広く使用されています。ただし、ほとんどの既存の表現表現は、事前に定義された個別のカテゴリ (たとえば、怒り、嫌悪感、幸せ、悲しいなど) しか記述できず、AU のような微妙な表現変換を捉えることができません。この論文では、AU検出を促進するために、微妙で連続的な顔の動きをキャプチャするための、新しいきめ細かいグローバル表現表現エンコーダを提案します。このようなグローバルな表現表現を取得するために、グローバルな表現の類似性に従って、大規模な表現データセットで表現埋め込みモデルをトレーニングすることを提案します。さらに、AU のローカル定義を考慮すると、ローカル AU の特徴を抽出することが不可欠です。したがって、ローカル AU 機能モジュールを設計して、各 AU のローカル顔機能を生成します。具体的には、AU 特徴マップ抽出器と対応する AU マスク抽出器で構成されます。まず、2 つのエクストラクタがグローバルな表現表現をそれぞれ AU の特徴マップとマスクに変換します。次に、AU 特徴マップとそれに対応する AU マスクが掛け合わされて、局所的な顔領域に焦点を当てた AU マスクされた特徴が生成されます。最後に、AU マスクされた特徴は、AU の発生を判断するために AU 分類器に供給されます。広範な実験結果は、提案した方法の優位性を示しています。私たちの方法は、以前の研究を有効に上回り、BP4D、DISFA、および BP4D+ を含む広く使用されている顔データセットで最先端のパフォーマンスを達成します。
Expressions and facial action units (AUs) are two levels of facial behavior descriptors. Expression auxiliary information has been widely used to improve the AU detection performance. However, most existing expression representations can only describe pre-determined discrete categories (e.g., Angry, Disgust, Happy, Sad, etc.) and cannot capture subtle expression transformations like AUs. In this paper, we propose a novel fine-grained Global Expression representation Encoder to capture subtle and continuous facial movements, to promote AU detection. To obtain such a global expression representation, we propose to train an expression embedding model on a large-scale expression dataset according to global expression similarity. Moreover, considering the local definition of AUs, it is essential to extract local AU features. Therefore, we design a Local AU Features Module to generate local facial features for each AU. Specifically, it consists of an AU feature map extractor and a corresponding AU mask extractor. First, the two extractors transform the global expression representation into AU feature maps and masks, respectively. Then, AU feature maps and their corresponding AU masks are multiplied to generate AU masked features focusing on local facial region. Finally, the AU masked features are fed into an AU classifier for judging the AU occurrence. Extensive experiment results demonstrate the superiority of our proposed method. Our method validly outperforms previous works and achieves state-of-the-art performances on widely-used face datasets, including BP4D, DISFA, and BP4D+.
updated: Fri Oct 28 2022 02:42:34 GMT+0000 (UTC)
published: Thu Oct 27 2022 04:00:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト