視覚のための最初の効率的でスケーラブルなスライディング ウィンドウ アテンション メカニズムである近隣アテンション (NA) を紹介します。 NA はピクセル単位の操作であり、自己注意 (SA) を最も近い隣接ピクセルにローカライズするため、SA の二次複雑さと比較して、線形の時間と空間の複雑さを享受します。 Swin Transformer の Window Self Attention (WSA) とは異なり、スライディング ウィンドウ パターンにより、余分なピクセル シフトを必要とせずに NA の受容野を拡大し、並進の等分散性を維持できます。効率的な C++ および CUDA カーネルを備えた Python パッケージである NATTEN (Neighborhood Attention Extension) を開発しています。これにより、NA は Swin の WSA よりも最大 40% 高速に実行でき、メモリの使用量は最大 25% 少なくなります。さらに、画像分類と下流の視覚性能を向上させる NA に基づく新しい階層型トランス設計である Neighborhood Attention Transformer (NAT) を紹介します。 NAT の実験結果は競争力があります。 NAT-Tiny は、ImageNet で 83.2% のトップ 1 精度、MS-COCO で 51.4% の mAP、ADE20K で 48.4% の mIoU に達します。似たようなサイズ。スライディング ウィンドウの注意に基づくより多くの研究をサポートするために、私たちはプロジェクトをオープン ソース化し、チェックポイントを https://github.com/SHI-Labs/Neighborhood-Attention-Transformer でリリースしています。
We present Neighborhood Attention (NA), the first efficient and scalable sliding-window attention mechanism for vision. NA is a pixel-wise operation, localizing self attention (SA) to the nearest neighboring pixels, and therefore enjoys a linear time and space complexity compared to the quadratic complexity of SA. The sliding-window pattern allows NA's receptive field to grow without needing extra pixel shifts, and preserves translational equivariance, unlike Swin Transformer's Window Self Attention (WSA). We develop NATTEN (Neighborhood Attention Extension), a Python package with efficient C++ and CUDA kernels, which allows NA to run up to 40% faster than Swin's WSA while using up to 25% less memory. We further present Neighborhood Attention Transformer (NAT), a new hierarchical transformer design based on NA that boosts image classification and downstream vision performance. Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet, 51.4% mAP on MS-COCO and 48.4% mIoU on ADE20K, which is 1.9% ImageNet accuracy, 1.0% COCO mAP, and 2.6% ADE20K mIoU improvement over a Swin model with similar size. To support more research based on sliding-window attention, we open source our project and release our checkpoints at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.