arXiv reaDer
DiffRate : 効率的なビジョントランスフォーマーのための微分可能な圧縮率
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers
トークン圧縮は、トークンをプルーニング (ドロップ) またはマージすることで、大規模なビジョン トランスフォーマー (ViT など) を高速化することを目的としています。それは重要ですが、やりがいのある仕事です。最近の高度なアプローチは大きな成功を収めましたが、圧縮率 (つまり、削除するトークンの数) を慎重に手動で設定する必要があり、これは面倒で、最適なパフォーマンスに至りません。この問題に取り組むために、我々は、従来技術にはないいくつかの魅力的な特性を備えた新しいトークン圧縮方法である微分可能圧縮率 (DiffRate) を提案します。まず、DiffRate により、損失関数の勾配を圧縮率に伝播することができます。これは、以前の研究では微分不可能なハイパーパラメータと見なされていました。この場合、さまざまなレイヤーは、追加のオーバーヘッドなしで、レイヤーごとに異なる圧縮率を自動的に学習できます。第二に、トークンのプルーニングとマージは、以前の作品では分離されていましたが、DiffRate では自然に同時に実行できます。第三に、広範な実験により、DiffRate が最先端のパフォーマンスを達成していることが実証されています。たとえば、学習したレイヤーごとの圧縮率を既製の ViT-H (MAE) モデルに適用すると、40% の FLOP 削減と 1.5 倍のスループットの向上が達成されますが、精度は 0.16% わずかに低下します。 ImageNet は微調整なしで、微調整を行った場合でも以前の方法よりも優れたパフォーマンスを発揮します。コードとモデルは https://github.com/OpenGVLab/DiffRate で入手できます。
Token compression aims to speed up large-scale vision transformers (e.g. ViTs) by pruning (dropping) or merging tokens. It is an important but challenging task. Although recent advanced approaches achieved great success, they need to carefully handcraft a compression rate (i.e. number of tokens to remove), which is tedious and leads to sub-optimal performance. To tackle this problem, we propose Differentiable Compression Rate (DiffRate), a novel token compression method that has several appealing properties prior arts do not have. First, DiffRate enables propagating the loss function's gradient onto the compression ratio, which is considered as a non-differentiable hyperparameter in previous work. In this case, different layers can automatically learn different compression rates layer-wisely without extra overhead. Second, token pruning and merging can be naturally performed simultaneously in DiffRate, while they were isolated in previous works. Third, extensive experiments demonstrate that DiffRate achieves state-of-the-art performance. For example, by applying the learned layer-wise compression rates to an off-the-shelf ViT-H (MAE) model, we achieve a 40% FLOPs reduction and a 1.5x throughput improvement, with a minor accuracy drop of 0.16% on ImageNet without fine-tuning, even outperforming previous methods with fine-tuning. Codes and models are available at https://github.com/OpenGVLab/DiffRate.
updated: Mon May 29 2023 10:15:19 GMT+0000 (UTC)
published: Mon May 29 2023 10:15:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト