顔の表情認識 (FER) は、表情の構成要素がアイデンティティや頭の姿勢などの他の無関係な要素と常に絡み合っているため、困難な問題です。この作業では、より識別可能な特徴表現を学習するために、アイデンティティとポーズのもつれのない表情認識 (IPD-FER) モデルを提案します。私たちは全体的な顔の表現をアイデンティティ、ポーズ、表情の組み合わせと考えています。これら 3 つのコンポーネントは、異なるエンコーダーでエンコードされます。 ID エンコーダーの場合、十分に事前にトレーニングされた顔認識モデルがトレーニング中に利用および修正されます。これにより、以前の作品の特定の表現トレーニング データに対する制限が緩和され、野生のデータセットでのもつれの解消が実行可能になります。同時に、ポーズと表情のエンコーダーは、対応するラベルで最適化されます。アイデンティティとポーズの特徴を組み合わせて、入力された個人のニュートラルな顔がデコーダによって生成される必要があります。表現機能を追加する場合は、入力画像を再構成する必要があります。同じ個人の合成されたニュートラルなイメージと表情豊かなイメージの違いを比較することにより、表情コンポーネントはアイデンティティとポーズからさらに解きほぐされます。実験結果は、ラボで制御されたデータベースと野生のデータベースの両方でこの方法の有効性を検証し、最先端の認識パフォーマンスを達成しています。
Facial expression recognition (FER) is a challenging problem because the expression component is always entangled with other irrelevant factors, such as identity and head pose. In this work, we propose an identity and pose disentangled facial expression recognition (IPD-FER) model to learn more discriminative feature representation. We regard the holistic facial representation as the combination of identity, pose and expression. These three components are encoded with different encoders. For identity encoder, a well pre-trained face recognition model is utilized and fixed during training, which alleviates the restriction on specific expression training data in previous works and makes the disentanglement practicable on in-the-wild datasets. At the same time, the pose and expression encoder are optimized with corresponding labels. Combining identity and pose feature, a neutral face of input individual should be generated by the decoder. When expression feature is added, the input image should be reconstructed. By comparing the difference between synthesized neutral and expressional images of the same individual, the expression component is further disentangled from identity and pose. Experimental results verify the effectiveness of our method on both lab-controlled and in-the-wild databases and we achieve state-of-the-art recognition performance.