arXiv reaDer
エッジ デバイス向けのアテンション マップ ガイド付きトランスフォーマー プルーニング
Attention Map Guided Transformer Pruning for Edge Device
ビジョン トランスフォーマー (ViT) は、長期的な依存関係をモデル化する優れた機能を備えているため、全体論的および閉塞した人の再識別 (Re-ID) タスクの両方で有望な成功を収めています。ただし、膨大な計算コストやメモリ フットプリントなどのトランスフォーマー固有の問題は、リソースが限られたエッジ デバイスでの ViT ベースの個人再 ID モデルの展開を妨げる 2 つの未解決の問題です。私たちの目標は、特にオクルージョンを伴うタスクの場合に、人の再 ID で同等の精度を犠牲にすることなく、推論の複雑さとモデル サイズの両方を削減することです。この目的のために、ハードウェアに優しい方法でアテンション マップのガイダンスを使用して、冗長なトークンとヘッドの両方を削除する、新しいアテンション マップ ガイド付き (AMG) トランス プルーニング メソッドを提案します。最初にキー ディメンションのエントロピーを計算し、それをマップ全体で合計します。エントロピーの高いマップの対応するヘッド パラメーターは、モデル サイズの縮小のために削除されます。次に、クエリ ディメンションに沿ってキー トークンの類似度と 1 次勾配を組み合わせてトークンの重要度を推定し、冗長なキーと値のトークンを削除して、推論の複雑さをさらに軽減します。 Occluded DukeMTMC と Market-1501 に関する包括的な実験は、提案の有効性を示しています。たとえば、ViT-Base で提案されているプルーニング戦略では、FLOP が 29.4% 節約され、Rank-1 で 0.2% 低下し、mAP で 0.4% 改善されます。
Due to its significant capability of modeling long-range dependencies, vision transformer (ViT) has achieved promising success in both holistic and occluded person re-identification (Re-ID) tasks. However, the inherent problems of transformers such as the huge computational cost and memory footprint are still two unsolved issues that will block the deployment of ViT based person Re-ID models on resource-limited edge devices. Our goal is to reduce both the inference complexity and model size without sacrificing the comparable accuracy on person Re-ID, especially for tasks with occlusion. To this end, we propose a novel attention map guided (AMG) transformer pruning method, which removes both redundant tokens and heads with the guidance of the attention map in a hardware-friendly way. We first calculate the entropy in the key dimension and sum it up for the whole map, and the corresponding head parameters of maps with high entropy will be removed for model size reduction. Then we combine the similarity and first-order gradients of key tokens along the query dimension for token importance estimation and remove redundant key and value tokens to further reduce the inference complexity. Comprehensive experiments on Occluded DukeMTMC and Market-1501 demonstrate the effectiveness of our proposals. For example, our proposed pruning strategy on ViT-Base enjoys 29.4% FLOPs savings with 0.2% drop on Rank-1 and 0.4% improvement on mAP, respectively.
updated: Tue Apr 04 2023 01:51:53 GMT+0000 (UTC)
published: Tue Apr 04 2023 01:51:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト