arXiv reaDer
個別の表現により、VisionTransformerの堅牢性が強化されます
Discrete Representations Strengthen Vision Transformer Robustness
Vision Transformer(ViT)は、画像認識のための最先端のアーキテクチャとして登場しています。最近の研究では、ViTは畳み込み対応のものよりも堅牢であることが示唆されていますが、私たちの実験では、ViTがローカル機能(たとえば、妨害やテクスチャ)に過度に依存しており、グローバルコンテキスト(たとえば、形状や構造)を適切に利用できないことがわかりました。その結果、ViTは、配布されていない実際のデータに一般化できません。この欠陥に対処するために、ベクトル量子化エンコーダーによって生成された個別のトークンを追加することにより、ViTの入力レイヤーにシンプルで効果的なアーキテクチャの変更を提示します。標準の連続ピクセルトークンとは異なり、離散トークンは小さな摂動下では不変であり、個別に含まれる情報が少ないため、ViTは不変のグローバル情報を学習します。実験結果は、4つのアーキテクチャバリアントに個別の表現を追加すると、ImageNetでのパフォーマンスを維持しながら、7つのImageNet堅牢性ベンチマーク全体でViT堅牢性が最大12%強化されることを示しています。
Vision Transformer (ViT) is emerging as the state-of-the-art architecture for image recognition. While recent studies suggest that ViTs are more robust than their convolutional counterparts, our experiments find that ViTs are overly reliant on local features (e.g., nuisances and texture) and fail to make adequate use of global context (e.g., shape and structure). As a result, ViTs fail to generalize to out-of-distribution, real-world data. To address this deficiency, we present a simple and effective architecture modification to ViT's input layer by adding discrete tokens produced by a vector-quantized encoder. Different from the standard continuous pixel tokens, discrete tokens are invariant under small perturbations and contain less information individually, which promote ViTs to learn global information that is invariant. Experimental results demonstrate that adding discrete representation on four architecture variants strengthens ViT robustness by up to 12% across seven ImageNet robustness benchmarks while maintaining the performance on ImageNet.
updated: Sat Nov 20 2021 01:49:56 GMT+0000 (UTC)
published: Sat Nov 20 2021 01:49:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト