arXiv reaDer
BViT:幅広い注目を集めるVision Transformer
BViT: Broad Attention based Vision Transformer
最近の研究では、トランスフォーマーは、画像パッチ間の関係を自己注意で活用することにより、コンピュータービジョンで有望なパフォーマンスを達成できることが実証されています。彼らは単一の機能レイヤーで注意を考慮するだけですが、異なるレベルでの注意の相補性を無視します。本論文では、BViTと呼ばれるビジョントランスの異なる層の注意関係を組み込むことにより、性能を改善するための幅広い注意を提案します。幅広い注意は、幅広い接続とパラメータのない注意によって実装されます。各トランス層の幅広い接続により、BViTの情報の送信と統合が促進されます。追加のトレーニング可能なパラメータを導入することなく、パラメータのない注意は、有用な情報を抽出し、それらの関係を構築するために、さまざまな層ですでに利用可能な注意情報に共同で焦点を合わせます。画像分類タスクの実験は、BViTが5M / 22Mパラメーターを使用したImageNetで74.8%/ 81.6%のトップ1精度の最先端の精度を提供することを示しています。さらに、BViTをダウンストリームオブジェクト認識ベンチマークに転送して、CIFAR10とCIFAR100でそれぞれ98.9%と89.9%を達成し、より少ないパラメーターでViTを上回ります。一般化テストでは、Swin TransformerとT2T-ViTの幅広い注目も、1%以上の改善をもたらします。要約すると、注目ベースのモデルのパフォーマンスを促進するために、幅広い注目が期待されています。コードと事前トレーニング済みモデルは、https://github.com/DRL-CASIA/Broad_ViTで入手できます。
Recent works have demonstrated that transformer can achieve promising performance in computer vision, by exploiting the relationship among image patches with self-attention. While they only consider the attention in a single feature layer, but ignore the complementarity of attention in different levels. In this paper, we propose the broad attention to improve the performance by incorporating the attention relationship of different layers for vision transformer, which is called BViT. The broad attention is implemented by broad connection and parameter-free attention. Broad connection of each transformer layer promotes the transmission and integration of information for BViT. Without introducing additional trainable parameters, parameter-free attention jointly focuses on the already available attention information in different layers for extracting useful information and building their relationship. Experiments on image classification tasks demonstrate that BViT delivers state-of-the-art accuracy of 74.8%/81.6% top-1 accuracy on ImageNet with 5M/22M parameters. Moreover, we transfer BViT to downstream object recognition benchmarks to achieve 98.9% and 89.9% on CIFAR10 and CIFAR100 respectively that exceed ViT with fewer parameters. For the generalization test, the broad attention in Swin Transformer and T2T-ViT also bring an improvement of more than 1%. To sum up, broad attention is promising to promote the performance of attention based models. Code and pre-trained models are available at https://github.com/DRL-CASIA/Broad_ViT.
updated: Fri Jun 09 2023 06:08:37 GMT+0000 (UTC)
published: Sun Feb 13 2022 09:23:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト