arXiv reaDer
ビジョントランスフォーマーに対する敵対的なトークン攻撃
Adversarial Token Attacks on Vision Transformers
ビジョントランスフォーマーは、畳み込みネットワークとは対照的に、パッチトークンベースの自己注意メカニズムに依存しています。ブロックスパース性ベースの敵対的トークン攻撃を設計することにより、これら2つのモデルファミリ間の基本的な違いを調査します。さまざまなパッチサイズのトークン攻撃を使用して、トランスフォーマーと畳み込みモデルを調査および分析します。トランスフォーマーモデルは畳み込みモデルよりもトークン攻撃に敏感であり、ResNetsはシングルトークン攻撃の堅牢な精度でトランスフォーマーモデルを最大30%上回っていると推測されます。
Vision transformers rely on a patch token based self attention mechanism, in contrast to convolutional networks. We investigate fundamental differences between these two families of models, by designing a block sparsity based adversarial token attack. We probe and analyze transformer as well as convolutional models with token attacks of varying patch sizes. We infer that transformer models are more sensitive to token attacks than convolutional models, with ResNets outperforming Transformer models by up to ∼30% in robust accuracy for single token attacks.
updated: Fri Oct 08 2021 19:00:16 GMT+0000 (UTC)
published: Fri Oct 08 2021 19:00:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト