RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained Image Recognition
きめ細かい画像認識(FGIR)では、領域の注意の位置特定と増幅が重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くのことが検討されてきました。最近開発されたビジョントランスフォーマー(ViT)は、コンピュータービジョンタスクで有望な結果を達成しています。 CNNと比較すると、画像のシーケンシャル化はまったく新しい方法です。ただし、ViTは受容野のサイズに制限があるため、パッチのサイズが固定されているため、CNNのような局所的な注意が不足しており、識別領域の注意を学習するためのマルチスケール機能を生成できません。ボックス/パーツの注釈なしで識別領域の注意の学習を容易にするために、注意の重みの強さを使用して、生の画像に対応するパッチトークンの重要性を測定します。トランスの自己注意を利用して、識別領域の注意をマルチスケールで再帰的に学習するリカレントアテンションマルチスケールトランス(RAMS-Trans)を提案します。具体的には、私たちのアプローチの中核には、マルチスケール画像パッチの統合を完了するための動的パッチ提案モジュール(DPPM)ガイド領域増幅があります。 DPPMは、フルサイズの画像パッチから開始し、領域の注意を繰り返しスケールアップして、各スケールで生成された注意の重みの強度を指標として、グローバルからローカルに新しいパッチを生成します。私たちのアプローチは、ViT自体に付属し、エンドツーエンドで簡単にトレーニングできる注意の重みのみを必要とします。広範な実験により、RAMS-Transは、効率的なCNNモデルに加えて、同時作業よりも優れたパフォーマンスを発揮し、3つのベンチマークデータセットで最先端の結果を達成することが実証されています。
In fine-grained image recognition (FGIR), the localization and amplification of region attention is an important factor, which has been explored a lot by convolutional neural networks (CNNs) based approaches. The recently developed vision transformer (ViT) has achieved promising results on computer vision tasks. Compared with CNNs, Image sequentialization is a brand new manner. However, ViT is limited in its receptive field size and thus lacks local attention like CNNs due to the fixed size of its patches, and is unable to generate multi-scale features to learn discriminative region attention. To facilitate the learning of discriminative region attention without box/part annotations, we use the strength of the attention weights to measure the importance of the patch tokens corresponding to the raw images. We propose the recurrent attention multi-scale transformer (RAMS-Trans), which uses the transformer's self-attention to recursively learn discriminative region attention in a multi-scale manner. Specifically, at the core of our approach lies the dynamic patch proposal module (DPPM) guided region amplification to complete the integration of multi-scale image patches. The DPPM starts with the full-size image patches and iteratively scales up the region attention to generate new patches from global to local by the intensity of the attention weights generated at each scale as an indicator. Our approach requires only the attention weights that come with ViT itself and can be easily trained end-to-end. Extensive experiments demonstrate that RAMS-Trans performs better than concurrent works, in addition to efficient CNN models, achieving state-of-the-art results on three benchmark datasets.
updated: Sat Jul 17 2021 06:22:20 GMT+0000 (UTC)
published: Sat Jul 17 2021 06:22:20 GMT+0000 (UTC)
