arXiv reaDer
ビジョントランスフォーマーの敵対的ロバスト性について
On the Adversarial Robustness of Vision Transformers
自然言語処理と理解の進歩に成功した後、トランスフォーマーはコンピューター ビジョンに革命的な変化をもたらすことが期待されています。この作業は、敵対的摂動に対するビジョン トランスフォーマー (ViTs) の堅牢性に関する包括的な研究を提供します。さまざまなホワイト ボックスおよび転送攻撃設定でテストした結果、MLP-Mixer および ConvNeXt を含む畳み込みニューラル ネットワーク (CNN) と比較した場合、ViT はより優れた敵対的ロバスト性を備えていることがわかりました。周波数分析と機能の視覚化を通じて、ViT のロバスト性の向上に寄与する次の主な観察結果を要約します。 CNN や MLP-Mixer よりも摂動が大きく、モデルが高周波の特徴を学習する量と、さまざまな周波数ベースの摂動に対するロバスト性との間には高い相関関係があります。 2) ViT で高頻度の特徴を学習するための畳み込みまたはトークンからトークンへのブロックを導入すると、分類精度が向上しますが、敵対的ロバスト性が犠牲になります。 3) アクティベーション関数、レイヤーノルム、グローバルな注意を模倣するためのより大きなカーネルサイズ、入力として画像をパッチするなど、ViT から技術を借りる最新の CNN 設計は、ViT と CNN の間のパフォーマンスギャップを埋めるのに役立つ可能性があります。パフォーマンスだけでなく、認定された経験的な敵対的堅牢性も備えています。さらに、堅牢なモデルをトレーニングするための ViT にも敵対的トレーニングを適用できることを示します。また、シャープネスを考慮した最小化も堅牢性の向上に役立ちますが、大規模なデータセットでクリーンな画像を使用した事前トレーニングを行っても、敵対的堅牢性は大幅に向上しません。
Following the success in advancing natural language processing and understanding, transformers are expected to bring revolutionary changes to computer vision. This work provides a comprehensive study on the robustness of vision transformers (ViTs) against adversarial perturbations. Tested on various white-box and transfer attack settings, we find that ViTs possess better adversarial robustness when compared with MLP-Mixer and convolutional neural networks (CNNs) including ConvNeXt, and this observation also holds for certified robustness. Through frequency analysis and feature visualization, we summarize the following main observations contributing to the improved robustness of ViTs: 1) Features learned by ViTs contain less high-frequency patterns that have spurious correlation, which helps explain why ViTs are less sensitive to high-frequency perturbations than CNNs and MLP-Mixer, and there is a high correlation between how much the model learns high-frequency features and its robustness against different frequency-based perturbations. 2) Introducing convolutional or tokens-to-token blocks for learning high-frequency features in ViTs can improve classification accuracy but at the cost of adversarial robustness. 3) Modern CNN designs that borrow techniques from ViTs including activation function, layer norm, larger kernel size to imitate the global attention, and patchify the images as inputs, etc., could help bridge the performance gap between ViTs and CNNs not only in terms of performance, but also certified and empirical adversarial robustness. Moreover, we show adversarial training is also applicable to ViT for training robust models, and sharpness-aware minimization can also help improve robustness, while pre-training with clean images on larger datasets does not significantly improve adversarial robustness.
updated: Wed Nov 02 2022 18:57:19 GMT+0000 (UTC)
published: Mon Mar 29 2021 14:48:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト