arXiv reaDer
SuperTickets:アーキテクチャ検索とパラメータプルーニングを組み合わせてスーパーネットからタスクに依存しない宝くじチケットを描画する
SuperTickets: Drawing Task-Agnostic Lottery Tickets from Supernets via Jointly Architecture Searching and Parameter Pruning
ニューラルアーキテクチャ検索(NAS)は、特定のスーパーネットから効率的なディープニューラルネットワーク(DNN)を検索することに驚くべき成功を収めています。並行して、宝くじの仮説は、DNNに、元のDNNと同等またはそれ以上の精度を達成するためにゼロからトレーニングできる小さなサブネットワークが含まれていることを示しています。そのため、現在、最初の検索とその後の整理のパイプラインを介して効率的なDNNを開発することが一般的な方法です。それにもかかわらず、そうすることはしばしば検索-列車-剪定-再訓練プロセスを必要とし、したがって法外な計算コストを必要とします。このホワイトペーパーでは、効率的なDNNとその宝くじサブネットワーク(宝くじチケット)の両方が、共同アーキテクチャを備えたツーインワントレーニングスキームを介して、スーパーネット(スーパーチケットと呼ばれる)から直接識別できることを初めて発見しました。検索とパラメータの剪定。さらに、スーパーネットトレーニング中にサブネットワークの接続を変更できるようにする、進歩的で統一されたSuperTickets識別戦略を開発し、従来のスパーストレーニングよりも優れた精度と効率のトレードオフを実現します。最後に、あるタスクから引き出されたそのように識別されたスーパーチケットが他のタスクにうまく転送できるかどうかを評価し、複数のタスクを同時に処理する可能性を検証します。 3つのタスクと4つのベンチマークデータセットに関する広範な実験とアブレーション研究により、提案されたSuperTicketは、再トレーニングの有無に関係なく、通常のNASパイプラインとプルーニングパイプラインの両方よりも精度と効率のトレードオフが向上することが検証されます。コードと事前トレーニング済みモデルは、https://github.com/RICE-EIC/SuperTicketsで入手できます。
Neural architecture search (NAS) has demonstrated amazing success in searching for efficient deep neural networks (DNNs) from a given supernet. In parallel, the lottery ticket hypothesis has shown that DNNs contain small subnetworks that can be trained from scratch to achieve a comparable or higher accuracy than original DNNs. As such, it is currently a common practice to develop efficient DNNs via a pipeline of first search and then prune. Nevertheless, doing so often requires a search-train-prune-retrain process and thus prohibitive computational cost. In this paper, we discover for the first time that both efficient DNNs and their lottery subnetworks (i.e., lottery tickets) can be directly identified from a supernet, which we term as SuperTickets, via a two-in-one training scheme with jointly architecture searching and parameter pruning. Moreover, we develop a progressive and unified SuperTickets identification strategy that allows the connectivity of subnetworks to change during supernet training, achieving better accuracy and efficiency trade-offs than conventional sparse training. Finally, we evaluate whether such identified SuperTickets drawn from one task can transfer well to other tasks, validating their potential of handling multiple tasks simultaneously. Extensive experiments and ablation studies on three tasks and four benchmark datasets validate that our proposed SuperTickets achieve boosted accuracy and efficiency trade-offs than both typical NAS and pruning pipelines, regardless of having retraining or not. Codes and pretrained models are available at https://github.com/RICE-EIC/SuperTickets.
updated: Fri Jul 08 2022 03:44:34 GMT+0000 (UTC)
published: Fri Jul 08 2022 03:44:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト