アテンションメカニズム、および最も目立つ自己アテンションは、テキストだけでなく画像も処理するための強力なビルディングブロックです。これらは、入力を集約するためのパラメーター効率の高い方法を提供します。私たちは視覚モデルの自己注意に焦点を当て、それを畳み込みと組み合わせます。畳み込みは、私たちが知る限り、最初に行うことです。現れるのは、データ依存フィルターによる畳み込みです。これをアフィン自己畳み込みと呼びます。これは各空間位置で異なって適用されますが、平行移動であることを示しています。また、SqueezeおよびExcitationの注目のバリエーションを変更し、両方の注目のバリエーションをロト翻訳グループに拡張します。 CIFAR10およびCIFAR100でこれらの新しいモデルを評価し、パラメータの数の改善を示しながら、テスト時に自己学習ベースラインに対して同等以上の精度を達成します。
Attention mechanisms, and most prominently self-attention, are a powerful building block for processing not only text but also images. These provide a parameter efficient method for aggregating inputs. We focus on self-attention in vision models, and we combine it with convolution, which as far as we know, are the first to do. What emerges is a convolution with data dependent filters. We call this an Affine Self Convolution. While this is applied differently at each spatial location, we show that it is translation equivariant. We also modify the Squeeze and Excitation variant of attention, extending both variants of attention to the roto-translation group. We evaluate these new models on CIFAR10 and CIFAR100 and show an improvement in the number of parameters, while reaching comparable or higher accuracy at test time against self-trained baselines.