ビジョントランスフォーマー(ViT)は、コンピュータービジョンタスクにおいて多くのブレークスルーをもたらしました。ただし、入力画像の空間次元にかなりの冗長性が生じ、膨大な計算コストが発生します。したがって、本論文では性能を維持しながら計算負荷を軽減するために粗視変換器(CF-ViT)を提案した。私たちが提案するCF-ViTは、最新のViTモデルにおける2つの重要な観察によって動機付けられています。(1)粗視化パッチ分割により、入力画像の有益な領域を特定できます。 (2)ほとんどの画像は、短いトークンシーケンスでViTモデルによって十分に認識できます。したがって、CF-ViTは2段階の方法でネットワーク推論を実装します。粗い推論段階では、計算上経済的な分類のために、入力画像が短いパッチシーケンスに分割されます。十分に認識されていない場合は、有益なパッチが識別され、さらにきめ細かい粒度で再分割されます。広範な実験により、CF-ViTの有効性が実証されています。たとえば、パフォーマンスを損なうことなく、CF-ViTはLV-ViTの53%のFLOPを削減し、2.01倍のスループットも実現します。
Vision Transformers (ViT) have made many breakthroughs in computer vision tasks. However, considerable redundancy arises in the spatial dimension of an input image, leading to massive computational costs. Therefore, We propose a coarse-to-fine vision transformer (CF-ViT) to relieve computational burden while retaining performance in this paper. Our proposed CF-ViT is motivated by two important observations in modern ViT models: (1) The coarse-grained patch splitting can locate informative regions of an input image. (2) Most images can be well recognized by a ViT model in a small-length token sequence. Therefore, our CF-ViT implements network inference in a two-stage manner. At coarse inference stage, an input image is split into a small-length patch sequence for a computationally economical classification. If not well recognized, the informative patches are identified and further re-split in a fine-grained granularity. Extensive experiments demonstrate the efficacy of our CF-ViT. For example, without any compromise on performance, CF-ViT reduces 53% FLOPs of LV-ViT, and also achieves 2.01x throughput.