自己注意は、畳み込みのパラメーター依存のスケーリングおよびコンテンツに依存しない相互作用とは対照的に、受容野のパラメーターに依存しないスケーリングおよびコンテンツに依存する相互作用により、コンピュータービジョンシステムを改善する見込みがある。自己注意モデルは、ResNet-50などのベースライン畳み込みモデルと比較して、精度とパラメーターのトレードオフが改善されることが最近示されています。この作業では、標準的なベースラインモデルだけでなく、高性能の畳み込みモデルよりも優れたパフォーマンスを発揮できる自己注意モデルの開発を目指しています。自己注意のより効率的な実装と併せて、これらのモデルの速度、メモリ使用量、および精度を向上させる、自己注意の2つの拡張を提案します。これらの改善を活用して、新しい自己注意モデルファミリであるHaloNetsを開発します。これは、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に到達します。予備的な転移学習実験では、HaloNetモデルがはるかに大きなモデルよりも優れており、推論パフォーマンスが優れていることがわかりました。オブジェクト検出やインスタンスセグメンテーションなどのより難しいタスクでは、単純なローカル自己注意と畳み込みハイブリッドが、非常に強力なベースラインよりも改善されていることを示しています。これらの結果は、畳み込みモデルが伝統的に支配していた設定での自己注意モデルの有効性を実証するための別のステップを示しています。
Self-attention has the promise of improving computer vision systems due to parameter-independent scaling of receptive fields and content-dependent interactions, in contrast to parameter-dependent scaling and content-independent interactions of convolutions. Self-attention models have recently been shown to have encouraging improvements on accuracy-parameter trade-offs compared to baseline convolutional models such as ResNet-50. In this work, we aim to develop self-attention models that can outperform not just the canonical baseline models, but even the high-performing convolutional models. We propose two extensions to self-attention that, in conjunction with a more efficient implementation of self-attention, improve the speed, memory usage, and accuracy of these models. We leverage these improvements to develop a new self-attention model family, HaloNets, which reach state-of-the-art accuracies on the parameter-limited setting of the ImageNet classification benchmark. In preliminary transfer learning experiments, we find that HaloNet models outperform much larger models and have better inference performance. On harder tasks such as object detection and instance segmentation, our simple local self-attention and convolutional hybrids show improvements over very strong baselines. These results mark another step in demonstrating the efficacy of self-attention models on settings traditionally dominated by convolutional models.