arXiv reaDer
メタ学習とトランスフォーマーベースの関係モデリングによる被験者間アクションユニットの検出
Cross-subject Action Unit Detection with Meta Learning and Transformer-based Relation Modeling
フェイシャルアクションユニット(AU)の検出は、顔の動きからの感情分析にとって重要なタスクです。異なる主題の明らかな違いは、AUによってもたらされる変更を誤解させることがあり、不正確な結果をもたらします。ただし、深層学習に基づく既存のAU検出方法のほとんどは、さまざまな被験者のID情報を考慮していませんでした。この論文は、アイデンティティに起因する違いを排除するために、メタ学習ベースのクロスサブジェクトAU検出モデルを提案します。さらに、複数のAUの潜在的な関係を学習するために、トランスフォーマーベースの関係学習モジュールが導入されています。具体的には、提案する作業は2つのサブタスクで構成されています。最初のサブタスクは、MARLと呼ばれるメタ学習ベースのAUローカル領域表現学習です。これは、複数のサブジェクトの共有情報を組み込み、アイデンティティに起因する差異を排除するローカルAU領域の識別表現を学習します。 2番目のサブタスクは、最初のサブタスクのAUのローカル領域表現を入力として使用し、次に、トランスフォーマーエンコーダアーキテクチャに基づく関係学習を追加して、AU関係をキャプチャします。トレーニングプロセス全体がカスケードされます。アブレーションの研究と視覚化により、MARLはアイデンティティに起因する差異を排除できるため、堅牢で一般化されたAUの識別可能な埋め込み表現が得られることが示されています。私たちの結果は、2つの公開データセットBP4DとDISFAで、私たちの方法が最先端の技術よりも優れており、F1スコアがそれぞれ1.3%と1.4%向上していることを証明しています。
Facial Action Unit (AU) detection is a crucial task for emotion analysis from facial movements. The apparent differences of different subjects sometimes mislead changes brought by AUs, resulting in inaccurate results. However, most of the existing AU detection methods based on deep learning didn't consider the identity information of different subjects. The paper proposes a meta-learning-based cross-subject AU detection model to eliminate the identity-caused differences. Besides, a transformer-based relation learning module is introduced to learn the latent relations of multiple AUs. To be specific, our proposed work is composed of two sub-tasks. The first sub-task is meta-learning-based AU local region representation learning, called MARL, which learns discriminative representation of local AU regions that incorporates the shared information of multiple subjects and eliminates identity-caused differences. The second sub-task uses the local region representation of AU of the first sub-task as input, then adds relationship learning based on the transformer encoder architecture to capture AU relationships. The entire training process is cascaded. Ablation study and visualization show that our MARL can eliminate identity-caused differences, thus obtaining a robust and generalized AU discriminative embedding representation. Our results prove that on the two public datasets BP4D and DISFA, our method is superior to the state-of-the-art technology, and the F1 score is improved by 1.3% and 1.4%, respectively.
updated: Wed May 18 2022 08:17:59 GMT+0000 (UTC)
published: Wed May 18 2022 08:17:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト