arXiv reaDer
近所の注意トランス
Neighborhood Attention Transformer
画像分類とダウンストリームビジョンタスクの両方でうまく機能する、効率的で正確かつスケーラブルな階層型トランスフォーマーであるNeighborhood Attention Transformer(NAT)を紹介します。これは、Neighborhood Attention(NA)に基づいて構築されています。これは、各クエリの受容野を最も近い隣接ピクセルにローカライズするシンプルで柔軟なアテンションメカニズムです。 NAは自己注意の局在であり、受容野のサイズが大きくなるにつれてそれに近づきます。また、FLOPとメモリ使用量において、同じ受容野サイズが与えられた場合のSwin Transformerのシフトされたウィンドウの注意と同等ですが、制約は少なくなります。さらに、NAには局所的な誘導バイアスが含まれているため、ピクセルシフトなどの余分な操作が不要になります。 NATに関する実験結果は競争力があります。 NAT-Tinyは、わずか4.3 GFLOPと28Mパラメーター、MS-COCOで51.4%mAP、ADE20kで48.4%mIoUで、ImageNetで83.2%のトップ1精度に達します。チェックポイント、コード、CUDAカーネルをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformerでオープンソース化しました。
We present Neighborhood Attention Transformer (NAT), an efficient, accurate and scalable hierarchical transformer that works well on both image classification and downstream vision tasks. It is built upon Neighborhood Attention (NA), a simple and flexible attention mechanism that localizes the receptive field for each query to its nearest neighboring pixels. NA is a localization of self-attention, and approaches it as the receptive field size increases. It is also equivalent in FLOPs and memory usage to Swin Transformer's shifted-window attention given the same receptive field size, while being less constrained. Furthermore, NA includes local inductive biases, which eliminate the need for extra operations such as pixel shifts. Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet with only 4.3 GFLOPs and 28M parameters, 51.4% mAP on MS-COCO and 48.4% mIoU on ADE20k. We open-sourced our checkpoints, code and CUDA kernel at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.
updated: Sat Jul 09 2022 23:38:38 GMT+0000 (UTC)
published: Thu Apr 14 2022 17:55:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト