arXiv reaDer
MIA-旧:マルチグレイン入力適応による効率的で堅牢なビジョントランスフォーマー
MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation
ViTは、(1)入力トークンの数によって二次関数的に複雑さが増し、(2)パラメーター化された自己注意ヘッドとモデルの深さが過剰になるため、多くの場合、計算コストが高すぎて実際のリソースに制約のあるデバイスに適合できません。並行して、さまざまな画像の複雑さはさまざまであり、さまざまな領域にさまざまなレベルの視覚情報を含めることができます。これは、ViTの複雑さを軽減する機会が十分に検討されていない一方で、モデルの複雑さに関してすべての領域/トークンを同等に扱う必要がないことを示しています。 。この目的のために、MIA-Formerと呼ばれるマルチグレイン入力適応型Vision Transformerフレームワークを提案します。これは、3つの粗い粒度から細かい粒度(つまり、モデルの深さとモデルの数)でViTの構造を入力適応的に調整できます。ヘッド/トークン)。特に、MIA-Formerは、入力適応型の方法で不要なレイヤー、ヘッド、トークンをスキップするために、ハイブリッド教師あり強化トレーニング方法でトレーニングされた低コストのネットワークを採用し、全体的な計算コストを削減します。さらに、MIA-Formerの興味深い副作用は、結果として得られるViTが、静的な対応物に対する敵対的な攻撃に対する堅牢性を自然に備えていることです。これは、MIA-Formerのマルチグレイン動的制御により、アンサンブルとしたがって、そのすべてのサブモデルに対する敵対的攻撃の難易度が高くなります。広範な実験とアブレーション研究により、提案されたMIA-Formerフレームワークは、入力画像の難易度に適応する計算バジェットを効果的に割り当てることができると同時に、堅牢性を高め、最先端(SOTA)の精度と効率のトレードオフを達成できることが検証されます。 SOTA動的トランスモデルと比較して、同じまたはさらに高い精度での計算の節約率。
ViTs are often too computationally expensive to be fitted onto real-world resource-constrained devices, due to (1) their quadratically increased complexity with the number of input tokens and (2) their overparameterized self-attention heads and model depth. In parallel, different images are of varied complexity and their different regions can contain various levels of visual information, indicating that treating all regions/tokens equally in terms of model complexity is unnecessary while such opportunities for trimming down ViTs' complexity have not been fully explored. To this end, we propose a Multi-grained Input-adaptive Vision Transformer framework dubbed MIA-Former that can input-adaptively adjust the structure of ViTs at three coarse-to-fine-grained granularities (i.e., model depth and the number of model heads/tokens). In particular, our MIA-Former adopts a low-cost network trained with a hybrid supervised and reinforcement training method to skip unnecessary layers, heads, and tokens in an input adaptive manner, reducing the overall computational cost. Furthermore, an interesting side effect of our MIA-Former is that its resulting ViTs are naturally equipped with improved robustness against adversarial attacks over their static counterparts, because MIA-Former's multi-grained dynamic control improves the model diversity similar to the effect of ensemble and thus increases the difficulty of adversarial attacks against all its sub-models. Extensive experiments and ablation studies validate that the proposed MIA-Former framework can effectively allocate computation budgets adaptive to the difficulty of input images meanwhile increase robustness, achieving state-of-the-art (SOTA) accuracy-efficiency trade-offs, e.g., 20% computation savings with the same or even a higher accuracy compared with SOTA dynamic transformer models.
updated: Tue Dec 21 2021 22:06:24 GMT+0000 (UTC)
published: Tue Dec 21 2021 22:06:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト