効率的なビジョン トランスフォーマーのためのパッチ スリミング
Patch Slimming for Efficient Vision Transformers
この論文は、与えられたネットワークにおける冗長な計算を掘り起こすことにより、視覚的変圧器の効率問題を研究する。最近のトランス アーキテクチャは、一連のコンピュータ ビジョン タスクで優れたパフォーマンスを達成するための有効性を示しています。ただし、畳み込みニューラル ネットワークと同様に、ビジョン トランスフォーマーの膨大な計算コストは依然として深刻な問題です。アテンション メカニズムがさまざまなパッチをレイヤーごとに集約することを考慮して、トップダウン パラダイムで無駄なパッチを破棄する新しいパッチ スリミング アプローチを紹介します。最初に最後のレイヤーで有効なパッチを特定し、それらを使用して前のレイヤーのパッチ選択プロセスをガイドします。各レイヤーについて、最終的な出力機能に対するパッチの影響が概算され、影響の少ないパッチが削除されます。ベンチマーク データセットの実験結果は、提案された方法が、ビジョン トランスフォーマーのパフォーマンスに影響を与えることなく、その計算コストを大幅に削減できることを示しています。たとえば、ViT-Ti モデルの 45% 以上の FLOP は、ImageNet データセットでトップ 1 の精度をわずか 0.2% 低下させるだけで削減できます。
This paper studies the efficiency problem for visual transformers by excavating redundant calculation in given networks. The recent transformer architecture has demonstrated its effectiveness for achieving excellent performance on a series of computer vision tasks. However, similar to that of convolutional neural networks, the huge computational cost of vision transformers is still a severe issue. Considering that the attention mechanism aggregates different patches layer-by-layer, we present a novel patch slimming approach that discards useless patches in a top-down paradigm. We first identify the effective patches in the last layer and then use them to guide the patch selection process of previous layers. For each layer, the impact of a patch on the final output feature is approximated and patches with less impact will be removed. Experimental results on benchmark datasets demonstrate that the proposed method can significantly reduce the computational costs of vision transformers without affecting their performances. For example, over 45% FLOPs of the ViT-Ti model can be reduced with only 0.2% top-1 accuracy drop on the ImageNet dataset.
updated: Sat Jun 05 2021 09:46:00 GMT+0000 (UTC)
published: Sat Jun 05 2021 09:46:00 GMT+0000 (UTC)
