トークン数が二次的に増加するビジョン トランスフォーマー (ViT) の計算コストを削減しようとします。一度に 1 つの ViT モデルのみをトレーニングする新しいトレーニング パラダイムを提示しますが、さまざまな計算コストで画像認識パフォーマンスを向上させることができます。ここで、スーパー ビジョン トランスフォーマー (SuperViT) と呼ばれるトレーニング済みの ViT モデルは、複数のサイズの受信パッチを解決し、複数の保持率 (トークンを保持する比率) で有益なトークンを保持して、優れたハードウェア効率を達成するための多目的な機能を備えています。これは、利用可能なハードウェア リソースが時々変わることが多いためです。 ImageNet での実験結果は、SuperViT が ViT モデルの計算コストを大幅に削減し、パフォーマンスが向上することを示しています。たとえば、DeiT-S の FLOP を 2 倍に削減し、トップ 1 の精度を 0.2% と 0.7% 向上させて 1.5 倍に削減します。また、当社の SuperViT は、効率的なビジョン トランスフォーマーに関する既存の研究よりも大幅に優れています。たとえば、DeiT-S をバックボーンとして使用すると、同じ量の FLOP を消費する場合、SuperViT は最近の最先端 (SOTA) EViT を 1.1% 上回っています。この作品のプロジェクトは、https://github.com/lmbxmu/SuperViT で公開されています。
We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SOTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT.