arXiv reaDer
ロバストな表情認識のための注意深いプーリングを備えたビジョン トランスフォーマー
Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition
自然界での表情認識 (FER) は、非常に困難な作業です。最近、いくつかのビジョン トランスフォーマー (ViT) が FER 用に調査されましたが、それらのほとんどは、畳み込みニューラル ネットワーク (CNN) と比較してパフォーマンスが劣っています。これは主に、新しく提案されたモジュールが誘導バイアスを欠いているために最初からうまく収束することが難しく、オクルージョンとノイズの多い領域に焦点を合わせやすいためです。 FER の代表的なトランスフォーマーベースの方法である TransFER は、マルチブランチのアテンション ドロップによってこれを軽減しますが、過剰な計算をもたらします。それどころか、ノイズの多い機能を直接プールする 2 つの注意深いプーリング (AP) モジュールを提示します。 AP モジュールには、Attentive Patch Pooling (APP) と Attentive Token Pooling (ATP) が含まれます。それらは、関連性の低い機能の影響を減らしながら、最も差別的な機能を強調するようにモデルを導くことを目的としています。提案された APP は、CNN 機能に関する最も有益なパッチを選択するために使用され、ATP は ViT で重要でないトークンを破棄します。 APP と ATP は実装が簡単で、学習可能なパラメーターがないため、直感的に計算コストを削減しながら、最も差別的な機能のみを追求することでパフォーマンスを向上させます。定性的な結果は、注意深いプーリングの動機と有効性を示しています。さらに、6 つの野生のデータセットに関する定量的な結果は、他の最先端の方法よりも優れています。
Facial Expression Recognition (FER) in the wild is an extremely challenging task. Recently, some Vision Transformers (ViT) have been explored for FER, but most of them perform inferiorly compared to Convolutional Neural Networks (CNN). This is mainly because the new proposed modules are difficult to converge well from scratch due to lacking inductive bias and easy to focus on the occlusion and noisy areas. TransFER, a representative transformer-based method for FER, alleviates this with multi-branch attention dropping but brings excessive computations. On the contrary, we present two attentive pooling (AP) modules to pool noisy features directly. The AP modules include Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to emphasize the most discriminative features while reducing the impacts of less relevant features. The proposed APP is employed to select the most informative patches on CNN features, and ATP discards unimportant tokens in ViT. Being simple to implement and without learnable parameters, the APP and ATP intuitively reduce the computational cost while boosting the performance by ONLY pursuing the most discriminative features. Qualitative results demonstrate the motivations and effectiveness of our attentive poolings. Besides, quantitative results on six in-the-wild datasets outperform other state-of-the-art methods.
updated: Sun Dec 11 2022 10:33:19 GMT+0000 (UTC)
published: Sun Dec 11 2022 10:33:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト