リファイナー: ビジョン トランスフォーマーの自己注意のリファイン
Refiner: Refining Self-attention for Vision Transformers
ビジョン トランスフォーマー (ViT) は、CNN と比較して画像分類タスクで競争力のある精度を示しています。ただし、モデルの事前トレーニングには通常、より多くのデータが必要です。したがって、最近の研究のほとんどは、ViT のデータ効率の問題に対処するためのより複雑なアーキテクチャまたはトレーニング方法の設計に専念しています。ただし、ViT と CNN を区別する重要な要素である自己注意メカニズムの改善を検討している企業はほとんどありません。既存の作品とは異なり、リファイナーと呼ばれる概念的に単純なスキームを導入して、ViT の自己注意マップを直接リファインします。具体的には、リファイナーは、マルチヘッド アテンション マップを高次元空間に投影して、その多様性を促進するアテンション拡張を探索します。さらに、リファイナーは畳み込みを適用して、アテンション マップのローカル パターンを拡張します。これは、学習可能なカーネルを使用してローカルに集約され、次に自己注意を使用してグローバルに集約される分散ローカル アテンションと同等であることを示しています。大規模な実験は、リファイナーが驚くほどうまく機能することを示しています。重要なことは、ViT が 81M パラメーターのみで ImageNet で 86% のトップ 1 分類精度を達成できることです。
Vision Transformers (ViTs) have shown competitive accuracy in image classification tasks compared with CNNs. Yet, they generally require much more data for model pre-training. Most of recent works thus are dedicated to designing more complex architectures or training methods to address the data-efficiency issue of ViTs. However, few of them explore improving the self-attention mechanism, a key factor distinguishing ViTs from CNNs. Different from existing works, we introduce a conceptually simple scheme, called refiner, to directly refine the self-attention maps of ViTs. Specifically, refiner explores attention expansion that projects the multi-head attention maps to a higher-dimensional space to promote their diversity. Further, refiner applies convolutions to augment local patterns of the attention maps, which we show is equivalent to a distributed local attention features are aggregated locally with learnable kernels and then globally aggregated with self-attention. Extensive experiments demonstrate that refiner works surprisingly well. Significantly, it enables ViTs to achieve 86% top-1 classification accuracy on ImageNet with only 81M parameters.
