表情認識 (FER) はコンピュータ ビジョンにおける重要なタスクであり、人間とコンピュータの相互作用、教育、ヘルスケア、オンライン モニタリングなどの分野で実際に応用されています。この困難な FER タスクでは、クラス間の類似性、クラス内の不一致、スケール感度という 3 つの重要な問題が特に一般的です。既存の作品は通常、これらの問題の一部に対処していますが、統一されたフレームワークで 3 つの課題すべてに完全に対処しているものはありません。この論文では、3 つの問題すべてを総合的に解決することを目的とした 2 ストリームの Pyramid crOss-fuSion TransformER ネットワーク (POSTER) を提案します。具体的には、顔のランドマーク特徴と画像特徴の効果的な連携を可能にし、顔の顕著な領域への適切な注意を最大限に高めるトランスフォーマーベースのクロスフュージョン手法を設計します。さらに、POSTER はスケールの不変性を促進するためにピラミッド構造を採用しています。広範な実験結果は、当社の POSTER が RAF-DB (92.05%)、FERPlus (91.62%)、さらに AffectNet 7 クラス (67.31%) および 8 クラス (63.34%) で新しい最先端の結果を達成することを示しています。コードは https://github.com/zczcwh/POSTER で入手できます。
Facial expression recognition (FER) is an important task in computer vision, having practical applications in areas such as human-computer interaction, education, healthcare, and online monitoring. In this challenging FER task, there are three key issues especially prevalent: inter-class similarity, intra-class discrepancy, and scale sensitivity. While existing works typically address some of these issues, none have fully addressed all three challenges in a unified framework. In this paper, we propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER), that aims to holistically solve all three issues. Specifically, we design a transformer-based cross-fusion method that enables effective collaboration of facial landmark features and image features to maximize proper attention to salient facial regions. Furthermore, POSTER employs a pyramid structure to promote scale invariance. Extensive experimental results demonstrate that our POSTER achieves new state-of-the-art results on RAF-DB (92.05%), FERPlus (91.62%), as well as AffectNet 7 class (67.31%) and 8 class (63.34%). The code is available at https://github.com/zczcwh/POSTER.