このペーパーでは、第4回感情行動分析インザワイルド(ABAW)コンペティションのマルチタスク学習(MTL)チャレンジへの提出を紹介します。視覚的特徴の表現に基づいて、トランスフォーマーベースのエンコーダー、LSTMベースのエンコーダー、GRUベースのエンコーダーなど、3種類の時間エンコーダーを使用してビデオの時間コンテキスト情報をキャプチャします。時間的コンテキストアウェア表現では、マルチタスクフレームワークを使用して、画像の価数、覚醒、表現、およびAU値を予測します。さらに、平滑化処理を適用して初期の感情価と覚醒の予測を改善し、モデルアンサンブル戦略を使用して、異なるモデル設定からの複数の結果を組み合わせます。私たちのシステムは、MTLチャレンジ検証データセットで1.742のパフォーマンスを達成しています。
This paper presents our submission to the Multi-Task Learning (MTL) Challenge of the 4th Affective Behavior Analysis in-the-wild (ABAW) competition. Based on visual feature representations, we utilize three types of temporal encoder to capture the temporal context information in the video, including the transformer based encoder, LSTM based encoder and GRU based encoder. With the temporal context-aware representations, we employ multi-task framework to predict the valence, arousal, expression and AU values of the images. In addition, smoothing processing is applied to refine the initial valence and arousal predictions, and a model ensemble strategy is used to combine multiple results from different model setups. Our system achieves the performance of 1.742 on MTL Challenge validation dataset.