Token Merging: Your ViT But Faster

Daniel Bolya; Cheng-Yang Fu; Xiaoliang Dai; Peizhao Zhang; Christoph Feichtenhofer; Judy Hoffman

トークンのマージ: ViT は高速ですが、

トークンマージ (ToMe) を導入します。これは、トレーニングを必要とせずに既存の ViT モデルのスループットを向上させる簡単な方法です。 ToMe は、一般的で軽量なマッチングアルゴリズムを使用して、同様のトークンをトランスフォーマーで徐々に結合します。このアルゴリズムは、剪定と同じくらい高速でありながら、より正確です。既製の ToMe は、画像では最先端の ViT-L @ 512 および ViT-H @ 518 モデルの 2 倍のスループット、ビデオでは ViT-L の 2.2 倍のスループットをわずか 0.2 ～ 0.3 で実現できます。それぞれの場合の精度低下率。 ToMe はトレーニング中にも簡単に適用できるため、実際のトレーニング速度が最大 2 倍向上し、ビデオでの MAE の微調整が可能になります。 ToMe を使用したトレーニングにより、精度の低下がさらに最小限に抑えられ、わずか 0.4% の mAP 低下で音声の ViT-B の 2 倍のスループットが得られます。定性的には、ビデオの複数のフレームにわたっても、ToMe がオブジェクトパーツを 1 つのトークンにマージすることがわかります。全体として、ToMe の精度と速度は、画像、ビデオ、およびオーディオの最先端技術に匹敵します。

We introduce Token Merging (ToMe), a simple method to increase the throughput of existing ViT models without needing to train. ToMe gradually combines similar tokens in a transformer using a general and light-weight matching algorithm that is as fast as pruning while being more accurate. Off-the-shelf, ToMe can 2x the throughput of state-of-the-art ViT-L @ 512 and ViT-H @ 518 models on images and 2.2x the throughput of ViT-L on video with only a 0.2-0.3% accuracy drop in each case. ToMe can also easily be applied during training, improving in practice training speed up to 2x for MAE fine-tuning on video. Training with ToMe further minimizes accuracy drop, leading to 2x the throughput of ViT-B on audio for only a 0.4% mAP drop. Qualitatively, we find that ToMe merges object parts into one token, even over multiple frames of video. Overall, ToMe's accuracy and speed are competitive with state-of-the-art on images, video, and audio.

updated: Wed Mar 01 2023 19:45:11 GMT+0000 (UTC)

published: Mon Oct 17 2022 22:23:40 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト