最近、視覚トランスへの関心の高まりは、自己注意の計算をローカルウィンドウに制限することによって計算コストを削減することです。現在のほとんどの作業では、モデルのパフォーマンスに対するウィンドウサイズの影響を無視して、デフォルトでモデル化に固定のシングルスケールウィンドウを使用しています。ただし、これにより、マルチスケール情報に対するこれらのウィンドウベースのモデルのモデリングの可能性が制限される可能性があります。この論文では、Dynamic Window Vision Transformer(DW-ViT)という新しい方法を提案します。 DW-ViTによって提案された動的ウィンドウ戦略は、固定の単一ウィンドウ設定を採用するモデルを超えています。私たちの知る限り、動的マルチスケールウィンドウを使用して、モデルのパフォーマンスに対するウィンドウ設定の影響の上限を調査したのは私たちが初めてです。 DW-ViTでは、マルチスケール情報は、ウィンドウマルチヘッド自己注意の異なるヘッドグループに異なるサイズのウィンドウを割り当てることによって取得されます。次に、マルチスケールウィンドウブランチに異なる重みを割り当てることにより、情報が動的に融合されます。 ImageNet-1K、ADE20K、COCOの3つのデータセットで詳細なパフォーマンス評価を実施しました。関連する最先端の(SoTA)メソッドと比較して、DW-ViTは最高のパフォーマンスを実現します。具体的には、現在のSoTA Swin Transformers liu2021swinと比較して、DW-ViTは、同様のパラメーターと計算コストで3つのデータセットすべてに対して一貫した大幅な改善を実現しました。さらに、DW-ViTは優れたスケーラビリティを示し、ウィンドウベースのビジュアルトランスに簡単に挿入できます。
Recently, a surge of interest in visual transformers is to reduce the computational cost by limiting the calculation of self-attention to a local window. Most current work uses a fixed single-scale window for modeling by default, ignoring the impact of window size on model performance. However, this may limit the modeling potential of these window-based models for multi-scale information. In this paper, we propose a novel method, named Dynamic Window Vision Transformer (DW-ViT). The dynamic window strategy proposed by DW-ViT goes beyond the model that employs a fixed single window setting. To the best of our knowledge, we are the first to use dynamic multi-scale windows to explore the upper limit of the effect of window settings on model performance. In DW-ViT, multi-scale information is obtained by assigning windows of different sizes to different head groups of window multi-head self-attention. Then, the information is dynamically fused by assigning different weights to the multi-scale window branches. We conducted a detailed performance evaluation on three datasets, ImageNet-1K, ADE20K, and COCO. Compared with related state-of-the-art (SoTA) methods, DW-ViT obtains the best performance. Specifically, compared with the current SoTA Swin Transformers liu2021swin, DW-ViT has achieved consistent and substantial improvements on all three datasets with similar parameters and computational costs. In addition, DW-ViT exhibits good scalability and can be easily inserted into any window-based visual transformers.