重み共有メカニズムに基づいて、ワンショット NAS メソッドはスーパーネットをトレーニングし、事前にトレーニングされた重みを継承してサブモデルを評価し、検索コストを大幅に削減します。ただし、いくつかの研究では、トレーニング中に共有重みがさまざまな勾配降下方向に影響を受けることが指摘されています。さらに、スーパーネットのトレーニング中に大きな勾配分散が発生し、スーパーネットのランキングの一貫性が低下することがわかりました。この問題を軽減するために、PAth と DAta (PA&DA) のサンプリング分布を共同で最適化することにより、スーパーネット トレーニングの勾配分散を明示的に最小化することを提案します。勾配分散とサンプリング分布の関係を理論的に導出し、最適なサンプリング確率がパスとトレーニング データの正規化された勾配ノルムに比例することを明らかにします。したがって、正規化された勾配ノルムをパスとトレーニング データの重要度指標として使用し、スーパーネット トレーニングには重要度サンプリング戦略を採用します。私たちの方法では、パスとデータのサンプリング分布を最適化するために必要な計算コストはごくわずかですが、スーパーネットのトレーニング中の勾配分散が低くなり、スーパーネットの一般化パフォーマンスが向上するため、NAS の一貫性が向上します。さまざまな検索スペースで、他の改善されたアプローチとの包括的な比較を行います。結果は、我々の方法がより信頼性の高いランキング性能と検索されたアーキテクチャのより高い精度で他の方法を凌駕することを示しており、我々の方法の有効性を示しています。コードは https://github.com/ShunLu91/PA-DA で入手できます。
Based on the weight-sharing mechanism, one-shot NAS methods train a supernet and then inherit the pre-trained weights to evaluate sub-models, largely reducing the search cost. However, several works have pointed out that the shared weights suffer from different gradient descent directions during training. And we further find that large gradient variance occurs during supernet training, which degrades the supernet ranking consistency. To mitigate this issue, we propose to explicitly minimize the gradient variance of the supernet training by jointly optimizing the sampling distributions of PAth and DAta (PA&DA). We theoretically derive the relationship between the gradient variance and the sampling distributions, and reveal that the optimal sampling probability is proportional to the normalized gradient norm of path and training data. Hence, we use the normalized gradient norm as the importance indicator for path and training data, and adopt an importance sampling strategy for the supernet training. Our method only requires negligible computation cost for optimizing the sampling distributions of path and data, but achieves lower gradient variance during supernet training and better generalization performance for the supernet, resulting in a more consistent NAS. We conduct comprehensive comparisons with other improved approaches in various search spaces. Results show that our method surpasses others with more reliable ranking performance and higher accuracy of searched architectures, showing the effectiveness of our method. Code is available at https://github.com/ShunLu91/PA-DA.