最近、Vision Transformer(ViT)は、いくつかのコンピュータービジョンタスクで目覚ましい成功を収めています。進捗状況はアーキテクチャ設計に非常に関連しているため、より優れたViTを自動的に検索するためのTransformer Architecture Search(TAS)を提案することは価値があります。ただし、現在のTAS手法は時間がかかり、CNNの既存のゼロコストプロキシは、実験的観察によれば、ViT検索空間にうまく一般化されていません。この論文では、初めて、トレーニングなしの方法でTASを実施する方法を調査し、効果的なトレーニングなしのTAS(TF-TAS)スキームを考案します。まず、ViTの多層自己注意(MSA)と多層パーセプトロン(MLP)の特性がまったく異なり、MSAのシナプスの多様性がパフォーマンスに特に影響することを観察します。次に、観察に基づいて、DSSインジケーターと呼ばれるシナプスの多様性とシナプスの顕著性という2つの理論的観点から、ViTアーキテクチャを評価およびランク付けするTF-TASのモジュラー戦略を考案します。 DSSインジケーターを使用すると、評価結果はViTモデルのテスト精度と強く相関します。実験結果は、当社のTF-TASが最先端の手動または自動設計のViTアーキテクチャに対して競争力のあるパフォーマンスを達成し、ViT検索スペースでの検索効率を大幅に向上させることを示しています:約24GPU日から0.5GPU未満日々。さらに、提案されたDSSインジケーターは、既存の最先端のゼロコストアプローチ(TEスコアやNASWOTなど)よりも優れています。
Recently, Vision Transformer (ViT) has achieved remarkable success in several computer vision tasks. The progresses are highly relevant to the architecture design, then it is worthwhile to propose Transformer Architecture Search (TAS) to search for better ViTs automatically. However, current TAS methods are time-consuming and existing zero-cost proxies in CNN do not generalize well to the ViT search space according to our experimental observations. In this paper, for the first time, we investigate how to conduct TAS in a training-free manner and devise an effective training-free TAS (TF-TAS) scheme. Firstly, we observe that the properties of multi-head self-attention (MSA) and multi-layer perceptron (MLP) in ViTs are quite different and that the synaptic diversity of MSA affects the performance notably. Secondly, based on the observation, we devise a modular strategy in TF-TAS that evaluates and ranks ViT architectures from two theoretical perspectives: synaptic diversity and synaptic saliency, termed as DSS-indicator. With DSS-indicator, evaluation results are strongly correlated with the test accuracies of ViT models. Experimental results demonstrate that our TF-TAS achieves a competitive performance against the state-of-the-art manually or automatically design ViT architectures, and it promotes the searching efficiency in ViT search space greatly: from about 24 GPU days to less than 0.5 GPU days. Moreover, the proposed DSS-indicator outperforms the existing cutting-edge zero-cost approaches (e.g., TE-score and NASWOT).