画像ベースの静的表情認識 (SFER) タスクと比較して、ビデオ シーケンスに基づく動的表情認識 (DFER) タスクは、自然な表情認識シーンに近いです。ただし、DFER は多くの場合、より困難です。主な理由の 1 つは、ビデオ シーケンスには、特に現実世界のシナリオでの顔の表情について、さまざまな表現強度のフレームが含まれることが多いのに対し、SFER の画像は均一で高い表現強度を示すことが多いためです。ただし、強度の異なる表現を同等に扱うと、ネットワークによって学習された特徴に、クラス内で大きな違いがあり、クラス間で小さな違いが生じ、DFER にとって有害になります。この問題に取り組むために、グローバル畳み込み注意ブロック (GCA) を提案して、特徴マップのチャネルを再スケーリングします。さらに、ネットワークが比較的低い発現強度を持つサンプルを区別できるように、トレーニング プロセスに強度認識損失 (IAL) を導入します。 2 つの実際の動的表情データセット (つまり、DFEW と FERV39k) での実験は、私たちの方法が最先端の DFER アプローチよりも優れていることを示しています。ソースコードは公開されます。
Compared with the image-based static facial expression recognition (SFER) task, the dynamic facial expression recognition (DFER) task based on video sequences is closer to the natural expression recognition scene. However, DFER is often more challenging. One of the main reasons is that video sequences often contain frames with different expression intensities, especially for the facial expressions in the real-world scenarios, while the images in SFER frequently present uniform and high expression intensities. However, if the expressions with different intensities are treated equally, the features learned by the networks will have large intra-class and small inter-class differences, which is harmful to DFER. To tackle this problem, we propose the global convolution-attention block (GCA) to rescale the channels of the feature maps. In addition, we introduce the intensity-aware loss (IAL) in the training process to help the network distinguish the samples with relatively low expression intensities. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and FERV39k) indicate that our method outperforms the state-of-the-art DFER approaches. The source code will be made publicly available.