arXiv reaDer
マルチスケールとトークンのマージ: ViT をより効率的にします
Muti-Scale And Token Mergence: Make Your ViT More Efficient
Vision Transformer (ViT) は、その誕生以来、コンピューター ビジョン ドメインの普及モデルとして浮上してきました。それにもかかわらず、ViT のマルチヘッド セルフ アテンション (MHSA) メカニズムは、すべてのトークン間の関係を計算するため、計算コストが高くなります。一部の手法はトークンを破棄することで計算オーバーヘッドを軽減しますが、これにより、それらのトークンから潜在的な情報が失われることになります。これらの問題に取り組むために、私たちは、重要でないトークンをより重要なトークンとマージすることで情報を保持し、それによってモデルのパフォーマンスに対する枝刈りの影響を軽減する、新しいトークン枝刈り手法を提案します。重要なトークンと重要でないトークンは、重要度スコアによって識別され、類似性スコアに基づいてマージされます。さらに、マルチスケール特徴を活用して画像を表現し、トークン プルーニングの前に融合して、より豊かな特徴表現を生成します。重要なのは、私たちの手法はさまざまな ViT とシームレスに統合でき、適応性が向上することです。実験的証拠は、モデルのパフォーマンスに対するトークン プルーニングの影響を軽減する際のアプローチの有効性を実証しています。たとえば、ImageNet データセットでは、計算コストの 33% という驚くべき削減を達成していますが、DeiT-S では精度の低下は 0.1% のみです。
Since its inception, Vision Transformer (ViT) has emerged as a prevalent model in the computer vision domain. Nonetheless, the multi-head self-attention (MHSA) mechanism in ViT is computationally expensive due to its calculation of relationships among all tokens. Although some techniques mitigate computational overhead by discarding tokens, this also results in the loss of potential information from those tokens. To tackle these issues, we propose a novel token pruning method that retains information from non-crucial tokens by merging them with more crucial tokens, thereby mitigating the impact of pruning on model performance. Crucial and non-crucial tokens are identified by their importance scores and merged based on similarity scores. Furthermore, multi-scale features are exploited to represent images, which are fused prior to token pruning to produce richer feature representations. Importantly, our method can be seamlessly integrated with various ViTs, enhancing their adaptability. Experimental evidence substantiates the efficacy of our approach in reducing the influence of token pruning on model performance. For instance, on the ImageNet dataset, it achieves a remarkable 33% reduction in computational costs while only incurring a 0.1% decrease in accuracy on DeiT-S.
updated: Thu Jun 08 2023 02:58:15 GMT+0000 (UTC)
published: Thu Jun 08 2023 02:58:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト