arXiv reaDer
勾配マッチングによる少数ショットNASの一般化
Generalizing Few-Shot NAS with Gradient Matching
ニューラルアーキテクチャ検索には、大規模な検索スペースから抽出されたアーキテクチャの効率的なパフォーマンス見積もりが不可欠です。ワンショット方式は、ウェイト共有を介して検索スペース内のすべてのアーキテクチャのパフォーマンスを概算するように1つのスーパーネットをトレーニングすることでこの課題に取り組み、検索コストを大幅に削減します。ただし、重みの共有によって引き起こされる子アーキテクチャ間の結合された最適化により、One-Shotスーパーネットのパフォーマンスの見積もりが不正確になり、検索結果が低下する可能性があります。この問題に対処するために、Few-Shot NASは、One-Shotスーパーネットをエッジワイズ(レイヤーワイズ)の徹底的なパーティショニングを介して複数の分離されたサブスーパーネットに分割することにより、重み共有のレベルを下げます。スーパーネットの各パーティションは等しく重要ではないため、より効果的な分割基準の設計が必要になります。この作業では、情報に基づいた分割決定を行うために共有重みで勾配情報を活用する勾配マッチングスコア(GM)を提案します。直感的には、さまざまな子モデルの勾配を使用して、共有モジュールの更新方法に同意するかどうかを識別し、その後、同じ重みを共有する必要があるかどうかを判断できます。徹底的な分割と比較して、提案された基準はエッジごとの分岐係数を大幅に削減します。これにより、特定の予算でより多くのエッジ(レイヤー)を分割できるようになり、NAS検索スペースには通常数十のエッジ(レイヤー)が含まれるため、パフォーマンスが大幅に向上します。広範囲の検索スペース(NASBench-201、DARTS、MobileNet Space)、データセット(cifar10、cifar100、ImageNet)、および検索アルゴリズム(DARTS、SNAS、RSPS、ProxylessNAS、OFA)での提案された方法の広範な経験的評価は、派生アーキテクチャの精度の点で、以前の同等の方法を上回りながら、その少数のショットの対応物を大幅に上回っています。
Efficient performance estimation of architectures drawn from large search spaces is essential to Neural Architecture Search. One-Shot methods tackle this challenge by training one supernet to approximate the performance of every architecture in the search space via weight-sharing, thereby drastically reducing the search cost. However, due to coupled optimization between child architectures caused by weight-sharing, One-Shot supernet's performance estimation could be inaccurate, leading to degraded search outcomes. To address this issue, Few-Shot NAS reduces the level of weight-sharing by splitting the One-Shot supernet into multiple separated sub-supernets via edge-wise (layer-wise) exhaustive partitioning. Since each partition of the supernet is not equally important, it necessitates the design of a more effective splitting criterion. In this work, we propose a gradient matching score (GM) that leverages gradient information at the shared weight for making informed splitting decisions. Intuitively, gradients from different child models can be used to identify whether they agree on how to update the shared modules, and subsequently to decide if they should share the same weight. Compared with exhaustive partitioning, the proposed criterion significantly reduces the branching factor per edge. This allows us to split more edges (layers) for a given budget, resulting in substantially improved performance as NAS search spaces usually include dozens of edges (layers). Extensive empirical evaluations of the proposed method on a wide range of search spaces (NASBench-201, DARTS, MobileNet Space), datasets (cifar10, cifar100, ImageNet) and search algorithms (DARTS, SNAS, RSPS, ProxylessNAS, OFA) demonstrate that it significantly outperforms its Few-Shot counterparts while surpassing previous comparable methods in terms of the accuracy of derived architectures.
updated: Tue Apr 05 2022 13:16:51 GMT+0000 (UTC)
published: Tue Mar 29 2022 03:06:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト