フェイシャルアクションコーディングシステムは、人間の感情表現の複雑さをモデル化するためのアプローチです。自動アクションユニット(AU)の検出は、人間とコンピューターの相互作用における重要な研究分野です。この論文では、2022年の第3回Affective Behavior Analysis in-the-wild(ABAW)コンテストへの提出について説明します。ビデオ内の顔のアクションユニットを検出する方法を提案しました。最初の段階では、軽量のCNNベースの特徴抽出器を使用して、各ビデオフレームから特徴マップを抽出します。次に、アテンションモジュールを適用して、アテンションマップを改良します。注意エンコードされたベクトルは、後で特徴マップと注意スコアの加重和を使用して導出されます。最後に、シグモイド関数が出力層で使用され、マルチラベルAUの検出に適した予測が行われます。ベースラインモデルの0.39と比較して、ABAWチャレンジ検証セットで0.48のマクロF1スコアを達成しました。
Facial Action Coding System is an approach for modeling the complexity of human emotional expression. Automatic action unit (AU) detection is a crucial research area in human-computer interaction. This paper describes our submission to the third Affective Behavior Analysis in-the-wild (ABAW) competition 2022. We proposed a method for detecting facial action units in the video. At the first stage, a lightweight CNN-based feature extractor is employed to extract the feature map from each video frame. Then, an attention module is applied to refine the attention map. The attention encoded vector is derived using a weighted sum of the feature map and the attention scores later. Finally, the sigmoid function is used at the output layer to make the prediction suitable for multi-label AUs detection. We achieved a macro F1 score of 0.48 on the ABAW challenge validation set compared to 0.39 from the baseline model.