arXiv reaDer
Adamとトレーニング戦略はBNNの最適化にどのように役立ちますか?
How Do Adam and Training Strategies Help BNNs Optimization?
最高のパフォーマンスを発揮するバイナリニューラルネットワーク(BNN)は、通常、Adam最適化とそのマルチステップトレーニングバリアントを使用して実現されます。ただし、私たちの知る限り、BNN最適化に関してAdamがSGDなどの他のオプティマイザーより優れている根本的な理由を調査したり、特定のトレーニング戦略をサポートする分析的な説明を提供したりする研究はほとんどありません。これに対処するために、このペーパーでは、最初にトレーニングプロセス中のBNNの勾配と重みの軌跡を調査します。アダムの二次運動量の正則化効果は、BNNの活性化飽和のために死んでいる重みを活性化するために重要であることを示します。アダムは、その適応学習率戦略を通じて、BNNの険しい損失面を処理するためのより良い装備を備えており、より高い一般化能力でより良い最適に到達することがわかります。さらに、バイナリネットワークにおける実数値の重みの興味深い役割を調べ、BNN最適化の安定性と停滞に対する重みの減衰の影響を明らかにします。広範な実験と分析を通じて、既存のAdamベースの最適化に基づいて、最新のReActNetと同じアーキテクチャを使用してImageNetデータセットで70.5%のトップ1精度を達成し、1.1を達成する簡単なトレーニングスキームを導き出します。 %高い精度。コードとモデルはhttps://github.com/liuzechun/AdamBNNで入手できます。
The best performing Binary Neural Networks (BNNs) are usually attained using Adam optimization and its multi-step training variants. However, to the best of our knowledge, few studies explore the fundamental reasons why Adam is superior to other optimizers like SGD for BNN optimization or provide analytical explanations that support specific training strategies. To address this, in this paper we first investigate the trajectories of gradients and weights in BNNs during the training process. We show the regularization effect of second-order momentum in Adam is crucial to revitalize the weights that are dead due to the activation saturation in BNNs. We find that Adam, through its adaptive learning rate strategy, is better equipped to handle the rugged loss surface of BNNs and reaches a better optimum with higher generalization ability. Furthermore, we inspect the intriguing role of the real-valued weights in binary networks, and reveal the effect of weight decay on the stability and sluggishness of BNN optimization. Through extensive experiments and analysis, we derive a simple training scheme, building on existing Adam-based optimization, which achieves 70.5% top-1 accuracy on the ImageNet dataset using the same architecture as the state-of-the-art ReActNet while achieving 1.1% higher accuracy. Code and models are available at https://github.com/liuzechun/AdamBNN.
updated: Mon Jun 21 2021 17:59:51 GMT+0000 (UTC)
published: Mon Jun 21 2021 17:59:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト