DARTSは、ニューラルアーキテクチャ検索(NAS)の一般的なアルゴリズムです。検索効率における大きな利点にもかかわらず、DARTSはしばしば弱い安定性に苦しみます。これは、検索プロセスのハイパーパラメーターに対する感度だけでなく、個々の試行間の大きなばらつきを反映しています。この論文は、スーパーネットワークとそのサブネットワーク間の最適化ギャップにそのような不安定性を負っています。つまり、スーパーネットワークの検証精度を改善しても、サンプリングされたサブネットワークのパフォーマンスに対する期待は必ずしも高くなりません。次に、ギャップは建築勾配の不正確な推定に起因することを指摘し、それに基づいて修正された推定方法を提案します。数学的には、この方法では、本来の推定では保証されないが、真の勾配からの制限されたエラーが保証されます。私たちのアプローチは、2つの側面からのギャップを埋めます。つまり、アーキテクチャの勾配の推定を修正し、検索および再トレーニングの段階でハイパーパラメーター設定を統一します。 CIFAR10とImageNetの実験は、このアプローチが検索の安定性を大幅に改善し、さらに重要なこととして、DARTSベースのアプローチがこれまで調査されていないはるかに大きな検索スペースを探索できることを示しています。
DARTS is a popular algorithm for neural architecture search (NAS). Despite its great advantage in search efficiency, DARTS often suffers weak stability, which reflects in the large variation among individual trials as well as the sensitivity to the hyper-parameters of the search process. This paper owes such instability to an optimization gap between the super-network and its sub-networks, namely, improving the validation accuracy of the super-network does not necessarily lead to a higher expectation on the performance of the sampled sub-networks. Then, we point out that the gap is due to the inaccurate estimation of the architectural gradients, based on which we propose an amended estimation method. Mathematically, our method guarantees a bounded error from the true gradients while the original estimation does not. Our approach bridges the gap from two aspects, namely, amending the estimation on the architectural gradients, and unifying the hyper-parameter settings in the search and re-training stages. Experiments on CIFAR10 and ImageNet demonstrate that our approach largely improves search stability and, more importantly, enables DARTS-based approaches to explore much larger search spaces that have not been investigated before.