On the Adversarial Robustness of Vision Transformers
自然言語処理と理解の進歩に成功した後、トランスフォーマーはコンピュータービジョンに革命的な変化をもたらすことが期待されています。この作業は、敵対的な摂動に対するビジョントランスフォーマー(ViT)の堅牢性に関する最初の包括的な研究を提供します。さまざまなホワイトボックスおよび転送攻撃の設定でテストしたところ、畳み込みニューラルネットワーク(CNN)と比較した場合、ViTはより優れた敵対的ロバスト性を備えていることがわかりました。この観察結果は、認定された堅牢性にも当てはまります。 ViTのロバスト性の向上に寄与する以下の主な観察結果を要約します。1)ViTによって学習された機能は、低レベルの情報が少なく、より一般化可能であり、敵対的な摂動に対する優れたロバスト性に貢献します。 2)ViTで低レベルの特徴を学習するために畳み込みブロックまたはトークンからトークンへのブロックを導入すると、分類の精度を向上させることができますが、敵対的な堅牢性が犠牲になります。 3)モデル構造内のトランスフォーマーの比率を増やすと(モデルがトランスフォーマーブロックとCNNブロックの両方で構成される場合)、堅牢性が向上します。ただし、純粋なトランスモデルの場合、サイズを大きくしたり、レイヤーを追加したりするだけでは、同様の効果は保証されません。 4)大規模なデータセットでの事前トレーニングは、ViTのトレーニングには重要ですが、敵対者の堅牢性を大幅に向上させることはありません。 5)敵対的トレーニングは、堅牢なモデルをトレーニングするためのViTにも適用できます。さらに、説明のために特徴の視覚化と頻度分析が行われます。結果は、ViTがCNNよりも高周波摂動に対する感度が低く、モデルが低レベルの特徴をどれだけうまく学習するかと、さまざまな周波数ベースの摂動に対するロバスト性との間に高い相関関係があることを示しています。
Following the success in advancing natural language processing and understanding, transformers are expected to bring revolutionary changes to computer vision. This work provides the first and comprehensive study on the robustness of vision transformers (ViTs) against adversarial perturbations. Tested on various white-box and transfer attack settings, we find that ViTs possess better adversarial robustness when compared with convolutional neural networks (CNNs). This observation also holds for certified robustness. We summarize the following main observations contributing to the improved robustness of ViTs: 1) Features learned by ViTs contain less low-level information and are more generalizable, which contributes to superior robustness against adversarial perturbations. 2) Introducing convolutional or tokens-to-token blocks for learning low-level features in ViTs can improve classification accuracy but at the cost of adversarial robustness. 3) Increasing the proportion of transformers in the model structure (when the model consists of both transformer and CNN blocks) leads to better robustness. But for a pure transformer model, simply increasing the size or adding layers cannot guarantee a similar effect. 4) Pre-training on larger datasets does not significantly improve adversarial robustness though it is critical for training ViTs. 5) Adversarial training is also applicable to ViT for training robust models. Furthermore, feature visualization and frequency analysis are conducted for explanation. The results show that ViTs are less sensitive to high-frequency perturbations than CNNs and there is a high correlation between how well the model learns low-level features and its robustness against different frequency-based perturbations.
updated: Thu Oct 14 2021 23:09:48 GMT+0000 (UTC)
published: Mon Mar 29 2021 14:48:24 GMT+0000 (UTC)
