ごく最近、重複しないローカル ウィンドウ内で自己注意を計算するウィンドウ ベースのトランスフォーマーは、画像分類、セマンティック セグメンテーション、およびオブジェクト検出で有望な結果を示しました。ただし、表現能力を向上させるための重要な要素であるクロスウィンドウ接続については、あまり研究が進んでいません。この作業では、ウィンドウ間の接続を構築する効率的な方法として、空間シャッフルを再検討します。その結果、私たちは Shuffle Transformer という名前の新しいビジョン トランスフォーマーを提案します。これは、2 行のコードを変更するだけで効率が高く、実装が簡単です。さらに、隣接ウィンドウ接続を強化するための空間シャッフルを補完するために、深さ方向の畳み込みが導入されています。提案されたアーキテクチャは、画像レベルの分類、オブジェクト検出、セマンティック セグメンテーションなど、幅広い視覚的タスクで優れたパフォーマンスを実現します。コードは複製用に公開されます。
Very recently, Window-based Transformers, which computed self-attention within non-overlapping local windows, demonstrated promising results on image classification, semantic segmentation, and object detection. However, less study has been devoted to the cross-window connection which is the key element to improve the representation ability. In this work, we revisit the spatial shuffle as an efficient way to build connections among windows. As a result, we propose a new vision transformer, named Shuffle Transformer, which is highly efficient and easy to implement by modifying two lines of code. Furthermore, the depth-wise convolution is introduced to complement the spatial shuffle for enhancing neighbor-window connections. The proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification, object detection, and semantic segmentation. Code will be released for reproduction.