視覚的注意は、顔の表情認識(FER)とアクションユニット(AU)の両方の検出におけるきめ細かい特徴を学習するために広く研究されてきました。これまでの幅広い研究では、注意モジュールを使用して詳細な顔の部分(顔のアクションユニットなど)をローカライズし、識別機能を学習し、クラス間の相関関係を学習する方法を調査してきました。ただし、アテンションモジュール自体の堅牢性に注目している関連作品はほとんどありません。実験を通じて、異なる特徴マップで初期化された神経注意マップは、同じ関心領域(ROI)に参加することを学習するときに、多様な表現を生成することがわかりました。言い換えると、一般的な特徴学習と同様に、注意マップの表現品質もモデルのパフォーマンスに大きく影響します。つまり、制約のない注意学習には多くのランダム性があります。この不確実性により、従来の注意学習は最適ではなくなります。本論文では、神経注意マップの表現力と集束力を強化するためのコンパクトなモデルを提案し、洗練された注意マップの「相互注意」相関を学習します。これを「自己多様化マルチチャネル注意ネットワーク(SMA-ネット)"。提案された方法は、AU検出用の2つのベンチマークデータベース(BP4DおよびDISFA)と、顔の表情認識用の4つのデータベース(CK +、MMI、BU-3DFE、およびBP4D +)で評価されます。最先端の方法に比べて優れた性能を発揮します。
Visual attention has been extensively studied for learning fine-grained features in both facial expression recognition (FER) and Action Unit (AU) detection. A broad range of previous research has explored how to use attention modules to localize detailed facial parts (e,g. facial action units), learn discriminative features, and learn inter-class correlation. However, few related works pay attention to the robustness of the attention module itself. Through experiments, we found neural attention maps initialized with different feature maps yield diverse representations when learning to attend the identical Region of Interest (ROI). In other words, similar to general feature learning, the representational quality of attention maps also greatly affects the performance of a model, which means unconstrained attention learning has lots of randomnesses. This uncertainty lets conventional attention learning fall into sub-optimal. In this paper, we propose a compact model to enhance the representational and focusing power of neural attention maps and learn the "inter-attention" correlation for refined attention maps, which we term the "Self-Diversified Multi-Channel Attention Network (SMA-Net)". The proposed method is evaluated on two benchmark databases (BP4D and DISFA) for AU detection and four databases (CK+, MMI, BU-3DFE, and BP4D+) for facial expression recognition. It achieves superior performance compared to the state-of-the-art methods.