Deep Ensembling with No Overhead for either Training or Testing: The All-Round Blessings of Dynamic Sparsity
スパースニューラルネットワークに関する最近の研究では、スパースサブネットワークをゼロから独立してトレーニングし、対応する高密度ネットワークのパフォーマンスに一致させる可能性が示されています。ただし、そのようなスパースサブネットワーク(チケットの獲得)を特定するには、コストのかかる反復的なトレーニング-プルーン-再トレーニングプロセス(例:宝くじの仮説)または過度に延長されたトレーニング時間(例:ダイナミックスパーストレーニング)が必要です。この作業では、スパースニューラルネットワークトレーニングとディープアンサンブル手法の間に独自の接続を描画し、FreeTicketsと呼ばれる新しいアンサンブル学習フレームワークを生成します。 FreeTicketsは、密なネットワークから開始する代わりに、スパースサブネットワークをランダムに初期化し、スパースマスクを動的に調整しながらサブネットワークをトレーニングします。その結果、トレーニングプロセス全体で多くの多様なスパースサブネットワークが生成されます。 FreeTicketsは、このワンパスのスパースからスパースへのトレーニング中に自由に取得されたこれらのスパースサブネットワークのアンサンブルとして定義されます。これは、バニラデンストレーニングに必要な計算リソースのごく一部のみを使用します。さらに、モデルのアンサンブルであるにもかかわらず、FreeTicketsは、単一の密なモデルと比較して、パラメーターとトレーニングFLOPがさらに少なくなっています。この一見直感に反する結果は、各サブネットワークのスパース性が高いためです。 FreeTicketsは、予測精度、不確実性の推定、堅牢性、および効率において、標準の高密度ベースラインと比較して、大幅な全体的な改善を示すことが観察されています。 FreeTicketsは、ImageNetで必要なトレーニングFLOPの4分の1のみを使用して、ImageNet上のResNet50でナイーブなディープアンサンブルを簡単に上回ります。私たちの結果は、スパースニューラルネットワークの強さへの洞察を提供し、スパース性の利点が通常期待される推論効率をはるかに超えていることを示唆しています。
Recent works on sparse neural networks have demonstrated the possibility to train a sparse subnetwork independently from scratch, to match the performance of its corresponding dense network. However, identifying such sparse subnetworks (winning tickets) either involves a costly iterative train-prune-retrain process (e.g., Lottery Ticket Hypothesis) or an over-extended training time (e.g., Dynamic Sparse Training). In this work, we draw a unique connection between sparse neural network training and the deep ensembling technique, yielding a novel ensemble learning framework called FreeTickets. Instead of starting from a dense network, FreeTickets randomly initializes a sparse subnetwork and then trains the subnetwork while dynamically adjusting its sparse mask, resulting in many diverse sparse subnetworks throughout the training process. FreeTickets is defined as the ensemble of these sparse subnetworks freely obtained during this one-pass, sparse-to-sparse training, which uses only a fraction of the computational resources required by the vanilla dense training. Moreover, despite being an ensemble of models, FreeTickets has even fewer parameters and training FLOPs compared to a single dense model: this seemingly counter-intuitive outcome is due to the high sparsity of each subnetwork. FreeTickets is observed to demonstrate a significant all-round improvement compared to standard dense baselines, in prediction accuracy, uncertainty estimation, robustness, and efficiency. FreeTickets easily outperforms the naive deep ensemble with ResNet50 on ImageNet using only a quarter of the training FLOPs required by the latter. Our results provide insights into the strength of sparse neural networks and suggest that the benefits of sparsity go way beyond the usually expected inference efficiency.
updated: Thu Oct 14 2021 04:52:51 GMT+0000 (UTC)
published: Mon Jun 28 2021 10:48:20 GMT+0000 (UTC)
