以前の研究では、顔のさまざまなコンポーネントが逐次学習器を使用して学習される順序が、表情認識システムのパフォーマンスにおいて重要な役割を果たすことができることが示されています。 FaceTopoNet は、顔の効果的なツリー トポロジを学習できる、表情認識のためのエンド ツー エンドのディープ モデルです。次に、モデルは学習したツリーをトラバースしてシーケンスを生成します。これを使用して埋め込みを形成し、シーケンシャル ラーナーにフィードします。考案したモデルは、構造の学習に 1 つのストリーム、質感の学習に 1 つのストリームを採用しています。構造ストリームは顔のランドマークの位置に焦点を当てていますが、テクスチャ ストリームの主な焦点はランドマークの周りのパッチにあり、テクスチャ情報を学習します。次に、効果的な注意ベースの融合戦略を利用して、2 つのストリームの出力を融合します。 4 つの大規模な野生の表情データセット (AffectNet、FER2013、ExpW、RAF-DB) と 1 つのラボ管理データセット (CK+) で大規模な実験を行い、アプローチを評価します。 FaceTopoNet は、5 つのデータセットのうち 3 つで最先端のパフォーマンスを達成し、他の 2 つのデータセットで競争力のある結果を得ています。また、モデル内のさまざまなコンポーネントとパラメーターの影響を評価するために、厳密なアブレーションと感度実験を実行します。最後に、堅牢性の実験を行い、FaceTopoNet がこの分野の他の主要な方法と比較してオクルージョンに対してより堅牢であることを示します。
Prior work has shown that the order in which different components of the face are learned using a sequential learner can play an important role in the performance of facial expression recognition systems. We propose FaceTopoNet, an end-to-end deep model for facial expression recognition, which is capable of learning an effective tree topology of the face. Our model then traverses the learned tree to generate a sequence, which is then used to form an embedding to feed a sequential learner. The devised model adopts one stream for learning structure and one stream for learning texture. The structure stream focuses on the positions of the facial landmarks, while the main focus of the texture stream is on the patches around the landmarks to learn textural information. We then fuse the outputs of the two streams by utilizing an effective attention-based fusion strategy. We perform extensive experiments on four large-scale in-the-wild facial expression datasets - namely AffectNet, FER2013, ExpW, and RAF-DB - and one lab-controlled dataset (CK+) to evaluate our approach. FaceTopoNet achieves state-of-the-art performance on three of the five datasets and obtains competitive results on the other two datasets. We also perform rigorous ablation and sensitivity experiments to evaluate the impact of different components and parameters in our model. Lastly, we perform robustness experiments and demonstrate that FaceTopoNet is more robust against occlusions in comparison to other leading methods in the area.