従来のニューラルアーキテクチャ検索(NAS)アプローチは強化学習または進化戦略に基づいており、CIFAR-10で適切なモデルを見つけるには3000 GPU時間以上かかります。勾配降下法による検索を学習する効率的なNASアプローチを提案します。私たちのアプローチは、探索空間を有向非巡回グラフ(DAG)として表しています。このDAGには数十億のサブグラフが含まれており、それぞれが一種のニューラルアーキテクチャを示しています。サブグラフのすべての可能性を横断することを避けるために、DAG上の微分可能なサンプラーを開発します。このサンプラーは学習可能であり、サンプリングされたアーキテクチャをトレーニングした後の検証損失によって最適化されます。このように、Differentialiable Architecture Sampler(GDAS)を使用したGradient-based searchという名前の勾配降下法により、アプローチをエンドツーエンドでトレーニングできます。実験では、CIFAR-10で4つのGPU時間で1つの検索手順を完了することができ、検出されたモデルは、2.5Mパラメーターのみで2.82 \%のテストエラーを取得します。これは、最先端技術と同等です。コードはGitHubで公開されています:https://github.com/D-X-Y/NAS-Projects。
Conventional neural architecture search (NAS) approaches are based on reinforcement learning or evolutionary strategy, which take more than 3000 GPU hours to find a good model on CIFAR-10. We propose an efficient NAS approach learning to search by gradient descent. Our approach represents the search space as a directed acyclic graph (DAG). This DAG contains billions of sub-graphs, each of which indicates a kind of neural architecture. To avoid traversing all the possibilities of the sub-graphs, we develop a differentiable sampler over the DAG. This sampler is learnable and optimized by the validation loss after training the sampled architecture. In this way, our approach can be trained in an end-to-end fashion by gradient descent, named Gradient-based search using Differentiable Architecture Sampler (GDAS). In experiments, we can finish one searching procedure in four GPU hours on CIFAR-10, and the discovered model obtains a test error of 2.82\% with only 2.5M parameters, which is on par with the state-of-the-art. Code is publicly available on GitHub: https://github.com/D-X-Y/NAS-Projects.