arXiv reaDer
DMFormer: CNN とビジョン トランスフォーマーの間のギャップを埋める
DMFormer: Closing the Gap Between CNN and Vision Transformers
ビジョン トランスフォーマーは、コンピューター ビジョン タスクで優れたパフォーマンスを示しています。彼らの自己注意メカニズムの計算コストは高価であるため、最近の研究では、ビジョン トランスフォーマーの自己注意メカニズムを畳み込み演算に置き換えようとしました。これは、組み込みの誘導バイアスでより効率的です。ただし、これらの取り組みは、マルチレベルの機能を無視するか、動的な繁栄を欠いており、最適なパフォーマンスにつながりません。この論文では、複数のカーネルサイズによって入力画像のさまざまなパターンをキャプチャし、ゲーティングメカニズムで入力適応重みを有効にする Dynamic Multi-level Attention メカニズム (DMA) を提案します。 DMA に基づいて、DMFormer という名前の効率的なバックボーン ネットワークを提示します。 DMFormer は、ビジョン トランスフォーマーの全体的なアーキテクチャを採用し、自己注意メカニズムを提案された DMA に置き換えます。 ImageNet-1K および ADE20K データセットに関する広範な実験結果により、DMFormer が最先端のパフォーマンスを達成し、同サイズのビジョン トランスフォーマー (ViT) および畳み込みニューラル ネットワーク (CNN) よりも優れていることが実証されました。
Vision transformers have shown excellent performance in computer vision tasks. As the computation cost of their self-attention mechanism is expensive, recent works tried to replace the self-attention mechanism in vision transformers with convolutional operations, which is more efficient with built-in inductive bias. However, these efforts either ignore multi-level features or lack dynamic prosperity, leading to sub-optimal performance. In this paper, we propose a Dynamic Multi-level Attention mechanism (DMA), which captures different patterns of input images by multiple kernel sizes and enables input-adaptive weights with a gating mechanism. Based on DMA, we present an efficient backbone network named DMFormer. DMFormer adopts the overall architecture of vision transformers, while replacing the self-attention mechanism with our proposed DMA. Extensive experimental results on ImageNet-1K and ADE20K datasets demonstrated that DMFormer achieves state-of-the-art performance, which outperforms similar-sized vision transformers(ViTs) and convolutional neural networks (CNNs).
updated: Tue Nov 29 2022 01:49:29 GMT+0000 (UTC)
published: Fri Sep 16 2022 06:45:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト