arXiv reaDer
NViT: Vision Transformer Compression and Parameter Redistribution
トランスフォーマーは、多くのタスクにわたって最先端の結果をもたらします。ただし、推論中には依然として莫大な計算コストがかかります。レイテンシーを削減するために、Vision Transformer(ViT)モデルのすべてのパラメーターに、レイテンシーを意識した正則化を使用したグローバルな構造的プルーニングを適用します。さらに、剪定されたアーキテクチャを分析し、最終的な重み構造に興味深い規則性を見つけます。私たちが発見した洞察は、NViT(Novel ViT)と呼ばれる新しいアーキテクチャにつながり、パラメータが使用される場所が再配布されます。このアーキテクチャは、パラメータをより効率的に利用し、遅延と精度のトレードオフの制御を可能にします。 ImageNet-1Kでは、DEIT-Base(Touvron et al。、2021)モデルを2.6倍のFLOP削減、5.1倍のパラメーター削減、および1.9倍の実行時高速化にプルーニングしますが、精度はわずか0.07%低下します。基本モデルをSmall / Tinyバリアントのスループットに圧縮すると、1%を超える精度の向上が達成されます。 NViTは、ゼロからトレーニングすると、手作業で設計されたDEITファミリよりも0.1〜1.1%の精度が得られますが、高速です。
Transformers yield state-of-the-art results across many tasks. However, they still impose huge computational costs during inference. We apply global, structural pruning with latency-aware regularization on all parameters of the Vision Transformer (ViT) model for latency reduction. Furthermore, we analyze the pruned architectures and find interesting regularities in the final weight structure. Our discovered insights lead to a new architecture called NViT (Novel ViT), with a redistribution of where parameters are used. This architecture utilizes parameters more efficiently and enables control of the latency-accuracy trade-off. On ImageNet-1K, we prune the DEIT-Base (Touvron et al., 2021) model to a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup with only 0.07% loss in accuracy. We achieve more than 1% accuracy gain when compressing the base model to the throughput of the Small/Tiny variants. NViT gains 0.1-1.1% accuracy over the hand-designed DEIT family when trained from scratch, while being faster.
updated: Sun Oct 10 2021 18:04:59 GMT+0000 (UTC)
published: Sun Oct 10 2021 18:04:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト