Learning Vision Transformer with Squeeze and Excitation for Facial Expression Recognition
過去数十年にわたって顔の表情のさまざまなデータベースにアクセスできるようになったため、顔の表情の認識(FER)タスクが大きな関心を集めています。利用可能なデータベースの複数のソースは、顔認識タスクにいくつかの課題を引き起こしました。これらの課題は通常、畳み込みニューラルネットワーク(CNN)アーキテクチャによって対処されます。 CNNモデルとは異なり、注意メカニズムに基づくTransformerモデルが、ビジョンタスクに対処するために最近発表されました。トランスフォーマーの主要な問題の1つは、トレーニングに大量のデータが必要なことですが、ほとんどのFERデータベースは他のビジョンアプリケーションと比較して制限されています。したがって、この論文では、FERタスクのためにSqueeze and Excitation(SE)ブロックと共同でビジョントランスフォーマーを学習することを提案します。提案された方法は、CK +、JAFFE、RAF-DB、SFEWなどのさまざまな公開されているFERデータベースで評価されます。実験は、私たちのモデルがCK +とSFEWで最先端の方法を上回り、JAFFEとRAF-DBで競争力のある結果を達成することを示しています。
As various databases of facial expressions have been made accessible over the last few decades, the Facial Expression Recognition (FER) task has gotten a lot of interest. The multiple sources of the available databases raised several challenges for facial recognition task. These challenges are usually addressed by Convolution Neural Network (CNN) architectures. Different from CNN models, a Transformer model based on attention mechanism has been presented recently to address vision tasks. One of the major issue with Transformers is the need of a large data for training, while most FER databases are limited compared to other vision applications. Therefore, we propose in this paper to learn a vision Transformer jointly with a Squeeze and Excitation (SE) block for FER task. The proposed method is evaluated on different publicly available FER databases including CK+, JAFFE,RAF-DB and SFEW. Experiments demonstrate that our model outperforms state-of-the-art methods on CK+ and SFEW and achieves competitive results on JAFFE and RAF-DB.
updated: Fri Jul 16 2021 07:49:19 GMT+0000 (UTC)
published: Wed Jul 07 2021 09:49:01 GMT+0000 (UTC)
