マイクロ表現の認識は、アフェクティブ コンピューティングにおける最も困難なトピックの 1 つです。 0.25~0.5秒という短い時間で人間が認識しにくい小さな顔の動きを認識することを目的としています。ディープ Bidirectional Transformers (BERT) の事前トレーニングにおける最近の進歩により、コンピューター ビジョンにおける自己教師あり学習タスクが大幅に改善されました。ただし、視覚問題における標準的な BERT は、完全な画像またはビデオからのみ学習するように設計されており、アーキテクチャは顔の微表情の詳細を正確に検出できません。この論文では、マイクロン BERT (μ-BERT)、顔の微表情認識への新しいアプローチを紹介します。提案された方法は、2 つの重要なアイデアに基づいて、教師なしでこれらの動きを自動的にキャプチャできます。まず、Diagonal Micro-Attention (DMA) を使用して、2 つのフレーム間のわずかな違いを検出します。次に、マイクロ表現の関心領域をローカライズして強調表示し、同時にノイズの多い背景や気を散らすものを減らすために、新しい関心パッチ (PoI) モジュールを導入します。これらのコンポーネントをエンドツーエンドのディープネットワークに組み込むことにより、提案されたμ-BERTは、さまざまなマイクロ表現タスクで以前のすべての作業よりも大幅に優れています。 μ-BERT は、ラベルのない大規模なデータセット (最大 800 万枚の画像) でトレーニングでき、新しい目に見えない顔の微表情データセットで高い精度を実現します。実証実験では、μ-BERT が SAMM、CASME II、SMIC、CASME3 を含む 4 つのマイクロ発現ベンチマークで最先端のパフォーマンスを一貫して大幅に上回っていることが示されています。コードは https://github.com/uark-cviu/Micron-BERT で入手できます
Micro-expression recognition is one of the most challenging topics in affective computing. It aims to recognize tiny facial movements difficult for humans to perceive in a brief period, i.e., 0.25 to 0.5 seconds. Recent advances in pre-training deep Bidirectional Transformers (BERT) have significantly improved self-supervised learning tasks in computer vision. However, the standard BERT in vision problems is designed to learn only from full images or videos, and the architecture cannot accurately detect details of facial micro-expressions. This paper presents Micron-BERT (μ-BERT), a novel approach to facial micro-expression recognition. The proposed method can automatically capture these movements in an unsupervised manner based on two key ideas. First, we employ Diagonal Micro-Attention (DMA) to detect tiny differences between two frames. Second, we introduce a new Patch of Interest (PoI) module to localize and highlight micro-expression interest regions and simultaneously reduce noisy backgrounds and distractions. By incorporating these components into an end-to-end deep network, the proposed μ-BERT significantly outperforms all previous work in various micro-expression tasks. μ-BERT can be trained on a large-scale unlabeled dataset, i.e., up to 8 million images, and achieves high accuracy on new unseen facial micro-expression datasets. Empirical experiments show μ-BERT consistently outperforms state-of-the-art performance on four micro-expression benchmarks, including SAMM, CASME II, SMIC, and CASME3, by significant margins. Code will be available at https://github.com/uark-cviu/Micron-BERT