実際の動的表情認識 (DFER) の以前の方法は、主に畳み込みニューラル ネットワーク (CNN) に基づいており、そのローカル操作はビデオの長距離依存性を無視します。 DFER の変換ベースの方法は、より優れたパフォーマンスを実現できますが、FLOP と計算コストが高くなります。これらの問題を解決するために、各フレーム内の識別機能をキャプチャし、複雑さのバランスを取りながらフレーム間のコンテキスト関係をモデル化する、ローカル - グローバル時空間トランスフォーマー (LOGO-Former) が提案されています。顔の筋肉が局所的に動き、表情が徐々に変化するという事前分布に基づいて、最初に空間的注意と時間的注意の両方をローカルウィンドウに制限して、機能トークン間の局所的な相互作用をキャプチャします。さらに、各ローカルウィンドウからの機能を使用してトークンを繰り返しクエリし、ビデオシーケンス全体の長距離情報を取得することにより、グローバルアテンションを実行します。さらに、学習された特徴が最小のクラス内距離と最大のクラス間距離を持つことをさらに促進するために、コンパクトな損失正則化項を提案します。 2 つの野生の動的表情データセット (つまり、DFEW と FERV39K) での実験は、私たちの方法が DFER の空間的および時間的依存性を利用する効果的な方法を提供することを示しています。
Previous methods for dynamic facial expression recognition (DFER) in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. Transformer-based methods for DFER can achieve better performances but result in higher FLOPs and computational costs. To solve these problems, the local-global spatio-temporal Transformer (LOGO-Former) is proposed to capture discriminative features within each frame and model contextual relationships among frames while balancing the complexity. Based on the priors that facial muscles move locally and facial expressions gradually change, we first restrict both the space attention and the time attention to a local window to capture local interactions among feature tokens. Furthermore, we perform the global attention by querying a token with features from each local window iteratively to obtain long-range information of the whole video sequence. In addition, we propose the compact loss regularization term to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and FERV39K) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for DFER.