arXiv reaDer
配電シフトの下でのビジョントランスフォーマーの一般化を深く掘り下げる
Delving Deep into the Generalization of Vision Transformers under Distribution Shifts
ビジョントランスフォーマー(ViT)は、さまざまなビジョンタスクで優れたパフォーマンスを実現していますが、ディストリビューションシフト(DS)での一般化が理解されることはめったにありません。この作業では、ViTの分布外(OOD)の一般化を包括的に研究します。体系的な調査のために、最初にDSの分類法を示します。次に、さまざまなDSでViTバリアントの広範な評価を実行し、それらの一般化を畳み込みニューラルネットワーク(CNN)モデルと比較します。重要な観察結果が得られます:1)ViTは、背景やテクスチャに対する弱いバイアスを学習しますが、形状や構造に対する強い誘導バイアスを備えています。これは、人間の認知特性とより一致しています。したがって、ViTはDSの下でCNNよりも一般化されます。パラメータの量が同じかそれより少ない場合、ViTはほとんどのタイプのDSでトップ1の精度で対応するCNNより5%以上進んでいます。 2)モデルのスケールが大きくなると、ViTはこれらのバイアスを強化し、分布内とOODのパフォーマンスのギャップを徐々に狭めます。 ViTの一般化をさらに改善するために、敵対的学習、情報理論、および自己監視学習の観点から一般化拡張ViT(GE-ViT)を設計します。これらのGE-ViTを包括的に調査し、対応するCNNモデルと比較することにより、次のことがわかります。1)拡張モデルの場合、ViTが大きいほど、OODの一般化にさらにメリットがあります。 2)GE-ViTは、対応するCNNモデルよりもハイパーパラメーターに敏感です。安定したトレーニングプロセスを実現し、バニラViTからOODデータのパフォーマンスを4%向上させるために、よりスムーズな学習戦略を設計します。私たちの包括的な研究が、より一般化可能な学習アーキテクチャの設計に光を当てることができることを願っています。
Vision Transformers (ViTs) have achieved impressive performance on various vision tasks, yet their generalization under distribution shifts (DS) is rarely understood. In this work, we comprehensively study the out-of-distribution (OOD) generalization of ViTs. For systematic investigation, we first present a taxonomy of DS. We then perform extensive evaluations of ViT variants under different DS and compare their generalization with Convolutional Neural Network (CNN) models. Important observations are obtained: 1) ViTs learn weaker biases on backgrounds and textures, while they are equipped with stronger inductive biases towards shapes and structures, which is more consistent with human cognitive traits. Therefore, ViTs generalize better than CNNs under DS. With the same or less amount of parameters, ViTs are ahead of corresponding CNNs by more than 5% in top-1 accuracy under most types of DS. 2) As the model scale increases, ViTs strengthen these biases and thus gradually narrow the in-distribution and OOD performance gap. To further improve the generalization of ViTs, we design the Generalization-Enhanced ViTs (GE-ViTs) from the perspectives of adversarial learning, information theory, and self-supervised learning. By comprehensively investigating these GE-ViTs and comparing with their corresponding CNN models, we observe: 1) For the enhanced model, larger ViTs still benefit more for the OOD generalization. 2) GE-ViTs are more sensitive to the hyper-parameters than their corresponding CNN models. We design a smoother learning strategy to achieve a stable training process and obtain performance improvements on OOD data by 4% from vanilla ViTs. We hope our comprehensive study could shed light on the design of more generalizable learning architectures.
updated: Mon Mar 07 2022 14:03:56 GMT+0000 (UTC)
published: Mon Jun 14 2021 17:21:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト