この論文では、第 4 回感情行動分析イン ザ ワイルド (ABAW) コンペティションにおけるマルチタスク学習 (MTL) チャレンジ用のシステムを紹介します。 1) 効率的でロバストな視覚的特徴表現を得るために、MAE ベースの教師なし表現学習と IResNet/DenseNet ベースの教師あり表現学習方法を提案します。 2) ビデオにおける時間情報の重要性を考慮して、トランスフォーマーに基づくエンコーダー、LSTM に基づくエンコーダー、および GRU に基づくエンコーダーを含む、時間情報をキャプチャする 3 種類のシーケンシャル エンコーダーを調査します。 3) マルチタスク感情分析のためにこれらの異なるタスク (すなわち、価、覚醒、表現、および AU) 間の相関をモデル化するために、まずこれらの異なるタスク間の依存関係を調査し、相関をモデル化するための 3 つのマルチタスク学習フレームワークを提案します。効果的に。当社のシステムは、検証データセットで 1.7607、テスト データセットで 1.4361 のパフォーマンスを達成し、MTL チャレンジで 1 位にランクされました。コードは https://github.com/AIM3-RUC/ABAW4 で入手できます。
This paper presents our system for the Multi-Task Learning (MTL) Challenge in the 4th Affective Behavior Analysis in-the-wild (ABAW) competition. We explore the research problems of this challenge from three aspects: 1) For obtaining efficient and robust visual feature representations, we propose MAE-based unsupervised representation learning and IResNet/DenseNet-based supervised representation learning methods; 2) Considering the importance of temporal information in videos, we explore three types of sequential encoders to capture the temporal information, including the encoder based on transformer, the encoder based on LSTM, and the encoder based on GRU; 3) For modeling the correlation between these different tasks (i.e., valence, arousal, expression, and AU) for multi-task affective analysis, we first explore the dependency between these different tasks and propose three multi-task learning frameworks to model the correlations effectively. Our system achieves the performance of 1.7607 on the validation dataset and 1.4361 on the test dataset, ranking first in the MTL Challenge. The code is available at https://github.com/AIM3-RUC/ABAW4.