arXiv reaDer
Norm-Preservation: Why Residual Networks Can Become Extremely Deep?
 いわゆるResNetアーキテクチャで導入されたスキップ接続によるニューラルネットワークの強化は、1,000を超えるレイヤーのネットワークのトレーニングを大幅なパフォーマンス向上を可能にすることでコミュニティを驚かせました。このホワイトペーパーでは、スキップ接続の効果を分析することでResNetを解読し、ニューラルネットワークでのIDスキップ接続の利点に関する新しい理論結果を提案します。残差ブロックのスキップ接続により、勾配のノルムの保存が促進され、最適化の観点から望ましい安定した逆伝播につながることがわかります。また、おそらく驚くべきことに、より多くの残留ブロックがスタックされるにつれて、ネットワークの標準保存が強化されることを示します。私たちの理論的議論は、広範な経験的証拠によって裏付けられています。追加の規範保存を推進できますか?この質問に答えるには、畳み込み演算子の特異値を正則化する効率的な方法を提案し、ResNetの遷移層をさらに規範保存します。数値調査により、ResNetの学習ダイナミクスと分類パフォーマンスは、さらに規範を維持することで改善できることが実証されています。 Procrustes ResNetsと呼ばれるResNetの結果と導入された修正は、より深いネットワークをトレーニングするためのガイドとして使用でき、新しいより深いアーキテクチャを刺激することもできます。
Augmenting neural networks with skip connections, as introduced in the so-called ResNet architecture, surprised the community by enabling the training of networks of more than 1,000 layers with significant performance gains. This paper deciphers ResNet by analyzing the effect of skip connections, and puts forward new theoretical results on the advantages of identity skip connections in neural networks. We prove that the skip connections in the residual blocks facilitate preserving the norm of the gradient, and lead to stable back-propagation, which is desirable from optimization perspective. We also show that, perhaps surprisingly, as more residual blocks are stacked, the norm-preservation of the network is enhanced. Our theoretical arguments are supported by extensive empirical evidence. Can we push for extra norm-preservation? We answer this question by proposing an efficient method to regularize the singular values of the convolution operator and making the ResNet's transition layers extra norm-preserving. Our numerical investigations demonstrate that the learning dynamics and the classification performance of ResNet can be improved by making it even more norm preserving. Our results and the introduced modification for ResNet, referred to as Procrustes ResNets, can be used as a guide for training deeper networks and can also inspire new deeper architectures.
updated: Wed Apr 22 2020 19:05:09 GMT+0000 (UTC)
published: Fri May 18 2018 23:37:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト