アクションユニット(AU)検出は、単一の顔の筋肉の動きを認識することを目的とした感情コンピューティングのブランチです。偏りのない計算上の顔の表現を解き放つことが重要であり、したがって、過去数年間で大きな関心を呼んでいます。 AUの専門家によって注釈が付けられた効率的な深層学習ベースのAU検出システムの顔画像データベースを構築する上での主な障害の1つ。その範囲で、ABAWチャレンジは、約2MフレームのAU注釈付きデータセットを含むため、より良いAU検出への道を開きます。このホワイトペーパーでは、ABAW3チャレンジへの提出を紹介します。一言で言えば、顔画像のどの部分が各AUを予測するのに最も関連性があるかを学習するために、マルチヘッドの注意を活用するマルチラベル検出トランスフォーマーを適用しました。
Action Unit (AU) Detection is the branch of affective computing that aims at recognizing unitary facial muscular movements. It is key to unlock unbiaised computational face representations and has therefore aroused great interest in the past few years. One of main obstacles toward building efficient deep learning based AU detection system facial images database annotated by AU experts. In that extent the ABAW challenge paves the way toward better AU detection as it involves a ~2M frames AU annotated dataset. In this paper, we present our submission to the ABAW3 challenge. In a nutshell, we applied a multi-label detection transformer that leverage multi-head attention to learn which part of the face image is the most relevant to predict each AU.