既存のニューラル アーキテクチャ検索 (NAS) 手法は通常、事前に手作りされた検索スペースを備えた、事前に指定されたスーパー ディープ ニューラル ネットワーク (スーパー ネットワーク) に依存しています。このような要件により、人間による多大な専門知識や手作業の介入なしに、それらを一般的なシナリオに拡張することが困難になります。この制限を克服するために、私たちは第 3 世代の Only-Train-Once (OTOv3) を提案します。 OTOv3 はおそらく、一般的なスーパーネットワークをトレーニングし、事前トレーニングや微調整を行わずにワンショットで高性能のサブネットワークを生成する最初の自動化システムです。技術的には、OTOv3 は人間の労力を最小限に抑えるために 3 つの顕著な貢献を提供します。(i) 一般的なスーパーネットワークの自動サーチ スペース構築。 (ii) 依存関係グラフを利用して最適化中のネットワークの妥当性を確保し、高いパフォーマンスと階層グループの疎性の両方を備えたソリューションを確実に生成する階層的半空間投影勾配 (H2SPG)。 (iii) スーパーネットワークと H2SPG ソリューションに基づく自動サブネットワーク構築。 RegNet、StackedUnets、SuperResNet、DARTS などのさまざまなスーパーネットワークにおける OTOv3 の有効性を、CIFAR10、Fashion-MNIST、ImageNet、STL-10、SVNH などのベンチマーク データセットと比較して数値的に実証します。 OTOv3 によって計算されたサブネットワークは、スーパーネットワークやその他の最先端のネットワークと比較して、競争力のあるさらに優れたパフォーマンスを実現します。ライブラリは https://github.com/tianyic/only_train_once でリリースされます。
Existing neural architecture search (NAS) methods typically rely on pre-specified super deep neural networks (super-networks) with handcrafted search spaces beforehand. Such requirements make it challenging to extend them onto general scenarios without significant human expertise and manual intervention. To overcome the limitations, we propose the third generation of Only-Train-Once (OTOv3). OTOv3 is perhaps the first automated system that trains general super-networks and produces high-performing sub-networks in the one shot manner without pretraining and fine-tuning. Technologically, OTOv3 delivers three noticeable contributions to minimize human efforts: (i) automatic search space construction for general super-networks; (ii) a Hierarchical Half-Space Projected Gradient (H2SPG) that leverages the dependency graph to ensure the network validity during optimization and reliably produces a solution with both high performance and hierarchical group sparsity; and (iii) automatic sub-network construction based on the super-network and the H2SPG solution. Numerically, we demonstrate the effectiveness of OTOv3 on a variety of super-networks, including RegNet, StackedUnets, SuperResNet, and DARTS, over benchmark datasets such as CIFAR10, Fashion-MNIST, ImageNet, STL-10, and SVNH. The sub-networks computed by OTOv3 achieve competitive even superior performance compared to the super-networks and other state-of-the-arts. The library will be released at https://github.com/tianyic/only_train_once.