arXiv reaDer
CF-ViT:ビジョントランスフォーマーの一般的な粗い方法から細かい方法
CF-ViT: A General Coarse-to-Fine Method for Vision Transformer
ビジョントランスフォーマー(ViT)は、コンピュータービジョンタスクにおいて多くのブレークスルーをもたらしました。ただし、入力画像の空間次元にかなりの冗長性が生じ、膨大な計算コストが発生します。したがって、本論文では性能を維持しながら計算負荷を軽減するために粗視変換器(CF-ViT)を提案した。私たちが提案するCF-ViTは、最新のViTモデルにおける2つの重要な観察によって動機付けられています。(1)粗視化パッチ分割により、入力画像の有益な領域を特定できます。 (2)ほとんどの画像は、短いトークンシーケンスでViTモデルによって十分に認識できます。したがって、CF-ViTは2段階の方法でネットワーク推論を実装します。粗い推論段階では、計算上経済的な分類のために、入力画像が短いパッチシーケンスに分割されます。十分に認識されていない場合は、有益なパッチが識別され、さらにきめ細かい粒度で再分割されます。広範な実験により、CF-ViTの有効性が実証されています。たとえば、パフォーマンスを損なうことなく、CF-ViTはLV-ViTの53%のFLOPを削減し、2.01倍のスループットも実現します。
Vision Transformers (ViT) have made many breakthroughs in computer vision tasks. However, considerable redundancy arises in the spatial dimension of an input image, leading to massive computational costs. Therefore, We propose a coarse-to-fine vision transformer (CF-ViT) to relieve computational burden while retaining performance in this paper. Our proposed CF-ViT is motivated by two important observations in modern ViT models: (1) The coarse-grained patch splitting can locate informative regions of an input image. (2) Most images can be well recognized by a ViT model in a small-length token sequence. Therefore, our CF-ViT implements network inference in a two-stage manner. At coarse inference stage, an input image is split into a small-length patch sequence for a computationally economical classification. If not well recognized, the informative patches are identified and further re-split in a fine-grained granularity. Extensive experiments demonstrate the efficacy of our CF-ViT. For example, without any compromise on performance, CF-ViT reduces 53% FLOPs of LV-ViT, and also achieves 2.01x throughput.
updated: Mon Nov 21 2022 09:47:20 GMT+0000 (UTC)
published: Tue Mar 08 2022 02:57:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト