arXiv reaDer
DrNAS:ディリクレニューラルアーキテクチャ検索
DrNAS: Dirichlet Neural Architecture Search
本論文はそれを分布学習問題に定式化することにより新しい微分可能なアーキテクチャ検索法を提案した。継続的に緩和されたアーキテクチャの混合重みを、ディリクレ分布によってモデル化された確率変数として扱います。最近開発されたパスワイズデリバティブを使用すると、ディリクレパラメーターを勾配ベースのオプティマイザーでエンドツーエンドで簡単に最適化できます。この定式化により、一般化能力が向上し、確率論が誘発され、探索空間での探索が自然に促進されます。さらに、微分可能なNASの大量のメモリ消費を軽減するために、大規模なタスクを直接検索できるシンプルで効果的なプログレッシブ学習スキームを提案し、検索フェーズと評価フェーズの間のギャップを排除します。広範な実験は、私たちの方法の有効性を示しています。具体的には、モバイル設定でCIFAR-10で2.46%、ImageNetで23.7%のテストエラーが得られます。 NAS-Bench-201では、3つのデータセットすべてで最先端の結果を達成し、ニューラルアーキテクチャ検索アルゴリズムの効果的な設計に関する洞察を提供します。
This paper proposes a novel differentiable architecture search method by formulating it into a distribution learning problem. We treat the continuously relaxed architecture mixing weight as random variables, modeled by Dirichlet distribution. With recently developed pathwise derivatives, the Dirichlet parameters can be easily optimized with gradient-based optimizer in an end-to-end manner. This formulation improves the generalization ability and induces stochasticity that naturally encourages exploration in the search space. Furthermore, to alleviate the large memory consumption of differentiable NAS, we propose a simple yet effective progressive learning scheme that enables searching directly on large-scale tasks, eliminating the gap between search and evaluation phases. Extensive experiments demonstrate the effectiveness of our method. Specifically, we obtain a test error of 2.46% for CIFAR-10, 23.7% for ImageNet under the mobile setting. On NAS-Bench-201, we also achieve state-of-the-art results on all three datasets and provide insights for the effective design of neural architecture search algorithms.
updated: Tue Mar 16 2021 02:32:55 GMT+0000 (UTC)
published: Thu Jun 18 2020 08:23:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト