注意ベースのトランスフォーマーネットワークは、そのアプリケーションが自然言語処理からビジョンにまで及ぶため、有望な可能性を示しています。ただし、サブ二次注意近似やさまざまなトレーニングの強化などの最近の改善にもかかわらず、通常の注意を使用するこれまでのコンパクトビジョントランスフォーマーは、精度、モデルサイズ、スループットの点で、畳み込みニューラルネットワークと比較してまだ不十分です。この論文では、基本的で高度に一般化可能なコンパクトな自己注意メカニズムを紹介します。提案された方法は、既存の注意の最適化に加えて、冗長性を減らし、効率を改善します。通常の注意メカニズムとビジョントランスフォーマーの最新のバリエーションの両方に対するドロップインの適用性を示します。その結果、同じかそれ以上の精度で、より小さく、より高速なモデルを作成しました。
Attention-based transformer networks have demonstrated promising potential as their applications extend from natural language processing to vision. However, despite the recent improvements, such as sub-quadratic attention approximation and various training enhancements, the compact vision transformers to date using the regular attention still fall short in comparison with its convnet counterparts, in terms of accuracy, model size, and throughput. This paper introduces a compact self-attention mechanism that is fundamental and highly generalizable. The proposed method reduces redundancy and improves efficiency on top of the existing attention optimizations. We show its drop-in applicability for both the regular attention mechanism and some most recent variants in vision transformers. As a result, we produced smaller and faster models with the same or better accuracies.