arXiv reaDer
Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations
 私たちの仕事では、ディープニューラルネットワーク設計と数値微分方程式の橋渡しをします。 ResNet、PolyNet、FractalNet、RevNetなどの多くの効果的なネットワークは、微分方程式の異なる数値離散化として解釈できることを示します。この発見は、効果的なディープアーキテクチャの設計に関するまったく新しい視点をもたらします。数値解析の豊富な知識を活用して、より効果的な新しいディープネットワークの設計をガイドできます。例として、常微分方程式を解く線形マルチステップ法に触発された線形マルチステップアーキテクチャ(LMアーキテクチャ)を提案します。 LMアーキテクチャは、ResNetに似たネットワークで使用できる効果的な構造です。特に、LM-ResNetおよびLM-ResNeXt(すなわち、それぞれResNetおよびResNeXtにLMアーキテクチャを適用することによって取得されるネットワーク)は、同等の数のトレーニング可能なパラメーターを持つResNetおよびResNeXtよりも著しく高い精度を達成できることを実証します。 。特に、CIFARとImageNetの両方で、LM-ResNet / LM-ResNeXtは、同様のパフォーマンスを維持しながら、元のネットワークを大幅に(> 50%)圧縮できます。これは、数値解析の修正方程式の概念を使用して数学的に説明できます。最後になりましたが、我々はまた、ネットワークの一般化を改善するのに役立つ、トレーニングプロセスにおける確率的制御とノイズ注入の間の接続を確立します。さらに、確率的トレーニング戦略を確率的動的システムと関連付けることにより、LMアーキテクチャを使用して確率的トレーニングをネットワークに簡単に適用できます。例として、LM-ResNetに確率論的な深さを導入し、CIFAR10上の元のLM-ResNetを大幅に改善しました。
In our work, we bridge deep neural network design with numerical differential equations. We show that many effective networks, such as ResNet, PolyNet, FractalNet and RevNet, can be interpreted as different numerical discretizations of differential equations. This finding brings us a brand new perspective on the design of effective deep architectures. We can take advantage of the rich knowledge in numerical analysis to guide us in designing new and potentially more effective deep networks. As an example, we propose a linear multi-step architecture (LM-architecture) which is inspired by the linear multi-step method solving ordinary differential equations. The LM-architecture is an effective structure that can be used on any ResNet-like networks. In particular, we demonstrate that LM-ResNet and LM-ResNeXt (i.e. the networks obtained by applying the LM-architecture on ResNet and ResNeXt respectively) can achieve noticeably higher accuracy than ResNet and ResNeXt on both CIFAR and ImageNet with comparable numbers of trainable parameters. In particular, on both CIFAR and ImageNet, LM-ResNet/LM-ResNeXt can significantly compress (>50%) the original networks while maintaining a similar performance. This can be explained mathematically using the concept of modified equation from numerical analysis. Last but not least, we also establish a connection between stochastic control and noise injection in the training process which helps to improve generalization of the networks. Furthermore, by relating stochastic training strategy with stochastic dynamic system, we can easily apply stochastic training to the networks with the LM-architecture. As an example, we introduced stochastic depth to LM-ResNet and achieve significant improvement over the original LM-ResNet on CIFAR10.
updated: Mon Mar 23 2020 04:20:58 GMT+0000 (UTC)
published: Fri Oct 27 2017 13:19:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト