arXiv reaDer
MixFormer:ウィンドウとディメンション間で機能を混在させる
MixFormer: Mixing Features across Windows and Dimensions
ローカルウィンドウの自己注意は、特に視覚タスクで実行されますが、限られた受容野と弱いモデリング機能の問題に悩まされています。これは主に、オーバーラップしていないウィンドウ内で自己注意を実行し、チャネルディメンションの重みを共有するためです。解決策を見つけるためにMixFormerを提案します。まず、並列設計でローカルウィンドウの自己注意と深さ方向の畳み込みを組み合わせ、受容野を拡大するためにクロスウィンドウ接続をモデル化します。次に、チャネルと空間の次元で補完的な手がかりを提供するために、ブランチ間の双方向の相互作用を提案します。これらの2つの設計は、ウィンドウと寸法の間で効率的な機能の混合を実現するために統合されています。 MixFormerは、EfficientNetを使用した画像分類で競争力のある結果を提供し、RegNetやSwinTransformerよりも優れた結果を示します。ダウンストリームタスクのパフォーマンスは、MS COCO、ADE20k、およびLVISの5つの高密度予測タスクで、計算コストが低く、大幅なマージンで他のタスクを上回っています。コードはhttps://github.com/PaddlePaddle/PaddleClasで入手できます。
While local-window self-attention performs notably in vision tasks, it suffers from limited receptive field and weak modeling capability issues. This is mainly because it performs self-attention within non-overlapped windows and shares weights on the channel dimension. We propose MixFormer to find a solution. First, we combine local-window self-attention with depth-wise convolution in a parallel design, modeling cross-window connections to enlarge the receptive fields. Second, we propose bi-directional interactions across branches to provide complementary clues in the channel and spatial dimensions. These two designs are integrated to achieve efficient feature mixing among windows and dimensions. Our MixFormer provides competitive results on image classification with EfficientNet and shows better results than RegNet and Swin Transformer. Performance in downstream tasks outperforms its alternatives by significant margins with less computational costs in 5 dense prediction tasks on MS COCO, ADE20k, and LVIS. Code is available at https://github.com/PaddlePaddle/PaddleClas.
updated: Tue Apr 12 2022 03:02:07 GMT+0000 (UTC)
published: Wed Apr 06 2022 03:13:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト