顔の表情認識(FER)は、人間とコンピューターの相互作用システムの重要なコンポーネントとして浮上しています。 FERの最近の進歩にもかかわらず、正面以外の顔画像のパフォーマンスはしばしば大幅に低下します。マルチビュー表情の対照学習(CL-MEx)を提案し、FERに向けてさまざまな角度から同時にキャプチャされた顔画像を活用します。 CL-MExは、2段階のトレーニングフレームワークです。最初のステップでは、エンコーダネットワークは、提案された自己教師あり対照損失で事前にトレーニングされ、被写体のさまざまなビューに対してビュー不変の埋め込みを生成することを学習します。次に、監視された設定で、ラベル付けされたデータを使用してモデルが微調整されます。最先端のパフォーマンスが達成されている2つのマルチビューFERデータセット、KDEFとDDCFで提案された方法のパフォーマンスを示します。さらなる実験は、挑戦的な角度とラベル付けされたデータの量の減少を処理する際の私たちの方法の頑健性を示しています。
Facial expression recognition (FER) has emerged as an important component of human-computer interaction systems. Despite recent advancements in FER, performance often drops significantly for non-frontal facial images. We propose Contrastive Learning of Multi-view facial Expressions (CL-MEx) to exploit facial images captured simultaneously from different angles towards FER. CL-MEx is a two-step training framework. In the first step, an encoder network is pre-trained with the proposed self-supervised contrastive loss, where it learns to generate view-invariant embeddings for different views of a subject. The model is then fine-tuned with labeled data in a supervised setting. We demonstrate the performance of the proposed method on two multi-view FER datasets, KDEF and DDCF, where state-of-the-art performances are achieved. Further experiments show the robustness of our method in dealing with challenging angles and reduced amounts of labeled data.