Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
ビジョントランスは最近爆発的な人気を博していますが、莫大な計算コストは依然として深刻な問題です。ビジョントランスフォーマーの最近の効率的な設計は、2つのパイプライン、つまり、ローカル空間事前および非構造トークンプルーニングに基づく構造圧縮に従います。ただし、トークンプルーニングは、ローカル空間事前に不可欠な空間構造を破壊します。 2つのパイプラインの両方を活用するために、この作業では、インスタンスごとに情報のないトークンを動的に識別し、完全な空間構造と情報フローを維持しながら、トレーニングと推論の両方の複雑さを軽減しようとします。この目標を達成するために、ビジョントランスフォーマー用の自発的な低速-高速トークン進化方法であるEvo-ViTを提案します。具体的には、ビジョントランスフォーマーに固有のグローバルクラスの注意を利用して、構造化されていないインスタンスごとのトークン選択を実行します。次に、さまざまな計算優先度、つまり低速-高速更新を使用して、最終予測にほとんど寄与しない有益なトークンとプレースホルダートークンを更新することを提案します。情報の流れと空間構造を保証する低速高速更新メカニズムのおかげで、Evo-ViTは、トレーニングプロセスの最初から、フラット構造とディープナロー構造の両方のバニラトランスフォーマーを加速できます。実験結果は、提案された方法が、画像分類で同等の性能を維持しながら、ビジョントランスフォーマーの計算コストを大幅に削減できることを示しています。たとえば、私たちの方法では、トップ1の精度を0.4%しか犠牲にせずに、DeiTSのスループットを60%以上高速化します。
Vision transformers have recently received explosive popularity, but the huge computational cost is still a severe issue. Recent efficient designs for vision transformers follow two pipelines, namely, structural compression based on local spatial prior and non-structural token pruning. However, token pruning breaks the spatial structure that is indispensable for local spatial prior. To take advantage of both two pipelines, this work seeks to dynamically identify uninformative tokens for each instance and trim down both the training and inference complexity while maintaining complete spatial structure and information flow. To achieve this goal, we propose Evo-ViT, a self-motivated slow-fast token evolution method for vision transformers. Specifically, we conduct unstructured instance-wise token selection by taking advantage of the global class attention that is unique to vision transformers. Then, we propose to update informative tokens and placeholder tokens that contribute little to the final prediction with different computational priorities, namely, slow-fast updating. Thanks to the slow-fast updating mechanism that guarantees information flow and spatial structure, our Evo-ViT can accelerate vanilla transformers of both flat and deep-narrow structures from the very beginning of the training process. Experimental results demonstrate that the proposed method can significantly reduce the computational costs of vision transformers while maintaining comparable performance on image classification. For example, our method accelerates DeiTS by over 60% throughput while only sacrificing 0.4% top-1 accuracy.
updated: Wed Aug 04 2021 13:15:31 GMT+0000 (UTC)
published: Tue Aug 03 2021 09:56:07 GMT+0000 (UTC)
