Theory III: Dynamics and Generalization in Deep Networks
 一般化の鍵は、ネットワークの複雑さを制御することです。ただし、分類のためのディープネットワークのトレーニングでは、複雑さの明確な制御(明示的な正則化条件など)はありません。古典的な形のノルム制御(ただし、隠れている)が、指数型損失の勾配降下法で訓練されたディープネットワークに存在することを示します。特に、勾配降下法は、正規化された重みのダイナミクスを誘導し、t \ to∞で最小ノルム(または最大マージン)解に対応する平衡状態に収束します。十分に大きいが有限のρ(したがって有限のt)の場合、ダイナミクスはいくつかのマージン最大化要素の1つに収束し、マージンは流れの定常点に向かって単調に増加します。確率的勾配降下の通常のケースでは、ほとんどの定常点は、制約付き最小化子(正規化された重みを持つネットワーク)に対応する凸型最小値である可能性が高く、これは消失する正則化に対応します。解は、固定アーキテクチャの場合、N \ to∞に対して漸近的に一般化ギャップがありません。ここで、Nはトレーニング例の数です。私たちのアプローチは、Srebroの元の結果の一部を線形ネットワークからディープネットワークに拡張し、勾配降下の暗黙のバイアスに関する新しい視点を提供します。私たちが説明しているとらえどころのない複雑さの制御は、過剰パラメーター化にもかかわらず、ディープネットワークによる優れた予測パフォーマンスの不可解な経験的発見の原因であると考えています。
The key to generalization is controlling the complexity of the network. However, there is no obvious control of complexity -- such as an explicit regularization term -- in the training of deep networks for classification. We will show that a classical form of norm control -- but kind of hidden -- is present in deep networks trained with gradient descent techniques on exponential-type losses. In particular, gradient descent induces a dynamics of the normalized weights which converge for t \to ∞ to an equilibrium which corresponds to a minimum norm (or maximum margin) solution. For sufficiently large but finite ρ -- and thus finite t -- the dynamics converges to one of several margin maximizers, with the margin monotonically increasing towards a limit stationary point of the flow. In the usual case of stochastic gradient descent, most of the stationary points are likely to be convex minima corresponding to a constrained minimizer -- the network with normalized weights-- which corresponds to vanishing regularization. The solution has zero generalization gap, for fixed architecture, asymptotically for N \to ∞, where N is the number of training examples. Our approach extends some of the original results of Srebro from linear networks to deep networks and provides a new perspective on the implicit bias of gradient descent. We believe that the elusive complexity control we describe is responsible for the puzzling empirical finding of good predictive performance by deep networks, despite overparametrization.
updated: Sat Apr 11 2020 00:21:50 GMT+0000 (UTC)
published: Tue Mar 12 2019 15:24:26 GMT+0000 (UTC)
