もともとは自然言語処理(NLP)タスク用に設計されていましたが、最近、自己注意メカニズムがさまざまなコンピュータービジョン領域を席巻しました。ただし、画像の2Dの性質は、コンピュータビジョンに自己注意を適用するための3つの課題をもたらします。 (1)画像を1Dシーケンスとして扱うと、2D構造が無視されます。 (2)2次の複雑さは、高解像度の画像には高すぎます。 (3)空間適応性のみをキャプチャし、チャネル適応性は無視します。この論文では、上記の問題を回避しながら、自己注意における自己適応型および長距離相関を可能にするための新しい大規模カーネル注意(LKA)モジュールを提案します。さらに、LKAに基づく新しいニューラルネットワーク、つまりVisual Attention Network(VAN)を紹介します。 VANは非常にシンプルで効率的ですが、画像分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションなどの広範な実験で、最先端のビジョントランスフォーマーや畳み込みニューラルネットワークよりも優れています。コードはhttpsで入手できます。 ://github.com/Visual-Attention-Network。
While originally designed for natural language processing (NLP) tasks, the self-attention mechanism has recently taken various computer vision areas by storm. However, the 2D nature of images brings three challenges for applying self-attention in computer vision. (1) Treating images as 1D sequences neglects their 2D structures. (2) The quadratic complexity is too expensive for high-resolution images. (3) It only captures spatial adaptability but ignores channel adaptability. In this paper, we propose a novel large kernel attention (LKA) module to enable self-adaptive and long-range correlations in self-attention while avoiding the above issues. We further introduce a novel neural network based on LKA, namely Visual Attention Network (VAN). While extremely simple and efficient, VAN outperforms the state-of-the-art vision transformers and convolutional neural networks with a large margin in extensive experiments, including image classification, object detection, semantic segmentation, instance segmentation, etc. Code is available at https://github.com/Visual-Attention-Network.