マルチスケールのコンテキスト情報を効果的にエンコードすることは、正確なセマンティックセグメンテーションにとって非常に重要です。既存の変圧器ベースのセグメンテーションモデルは、選択なしでスケール全体の機能を組み合わせます。最適ではないスケールの機能は、セグメンテーションの結果を低下させる可能性があります。ビジョントランスフォーマーの固有の特性を活用して、マルチスケール機能を最適に組み合わせるためのシンプルで効果的なモジュールであるトランスフォーマースケールゲート(TSG)を提案します。TSGは、スケール選択のためにビジョントランスフォーマーの自己の手がかりとクロスアテンションを活用します。 TSGは、柔軟性の高いプラグアンドプレイモジュールであり、エンコーダーデコーダーベースの階層型ビジョンTransformerアーキテクチャーに簡単に組み込むことができます。 PascalコンテキストとADE20Kデータセットに関する広範な実験は、私たちの特徴選択戦略が一貫した利益を達成することを示しています。
Effectively encoding multi-scale contextual information is crucial for accurate semantic segmentation. Existing transformer-based segmentation models combine features across scales without any selection, where features on sub-optimal scales may degrade segmentation outcomes. Leveraging from the inherent properties of Vision Transformers, we propose a simple yet effective module, Transformer Scale Gate (TSG), to optimally combine multi-scale features.TSG exploits cues in self and cross attentions in Vision Transformers for the scale selection. TSG is a highly flexible plug-and-play module, and can easily be incorporated with any encoder-decoder-based hierarchical vision Transformer architecture. Extensive experiments on the Pascal Context and ADE20K datasets demonstrate that our feature selection strategy achieves consistent gains.