畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで選択されているパラダイムです。ただし、たたみ込み演算は、局所的な近傍でのみ動作するため、グローバルな情報が欠落するという大きな弱点があります。一方、自己注意は、長距離相互作用をキャプチャする最近の進歩として浮上していますが、主にシーケンスモデリングおよび生成モデリングタスクに適用されています。この論文では、畳み込みに代わるものとして、差別的視覚課題に対する自己注意の使用を検討します。画像分類のためのスタンドアロンの計算プリミティブとして畳み込みを置き換えることで競争力があることを証明する新しい2次元の相対的な自己注意メカニズムを紹介します。制御実験では、畳み込みと自己注意の両方を組み合わせたときに最良の結果が得られることがわかりました。したがって、畳み込み演算子を、自己注意を介して生成された一連の特徴マップと連結することにより、この自己注意メカニズムで増強することを提案します。広範な実験により、注意の増強により、ResNetや最新のモバイル制約付きネットワークなど、多くの異なるモデルやスケールにわたって、ImageNetでの画像分類とCOCOでのオブジェクト検出に一貫した改善がもたらされ、パラメーターの数は同様に保たれることが示されています。特に、私たちの方法は、ResNet50ベースラインを超えるImageNet分類で1.3%のトップ1の精度向上を達成し、スクイーズアンドエキサイトなどの画像の他の注意メカニズムよりも優れています。また、RetinaNetベースラインに加えて、COCOオブジェクト検出の1.4 mAPの改善も実現します。
Convolutional networks have been the paradigm of choice in many computer vision applications. The convolution operation however has a significant weakness in that it only operates on a local neighborhood, thus missing global information. Self-attention, on the other hand, has emerged as a recent advance to capture long range interactions, but has mostly been applied to sequence modeling and generative modeling tasks. In this paper, we consider the use of self-attention for discriminative visual tasks as an alternative to convolutions. We introduce a novel two-dimensional relative self-attention mechanism that proves competitive in replacing convolutions as a stand-alone computational primitive for image classification. We find in control experiments that the best results are obtained when combining both convolutions and self-attention. We therefore propose to augment convolutional operators with this self-attention mechanism by concatenating convolutional feature maps with a set of feature maps produced via self-attention. Extensive experiments show that Attention Augmentation leads to consistent improvements in image classification on ImageNet and object detection on COCO across many different models and scales, including ResNets and a state-of-the art mobile constrained network, while keeping the number of parameters similar. In particular, our method achieves a 1.3% top-1 accuracy improvement on ImageNet classification over a ResNet50 baseline and outperforms other attention mechanisms for images such as Squeeze-and-Excitation. It also achieves an improvement of 1.4 mAP in COCO Object Detection on top of a RetinaNet baseline.