(確率的)勾配降下法の既存のグローバル収束保証は、ニューラルタンジェントカーネル(NTK)レジームを超えたディープラーニングの実際のレジームにおける実際のディープネットワークには適用されません。この論文は、表現性条件と呼ばれる検証可能な条件の下で、NTK体制を超えた実際の体制でグローバルな収束保証を持つことが保証されるアルゴリズムを提案します。表現力の条件は、データ依存とアーキテクチャ依存の両方であると定義されています。これは、NTK体制を超えた実際の設定に結果を適用できるようにする重要な特性です。一方では、表現力条件は、狭い隠れ層と単一の広い層を持つ完全に接続されたディープニューラルネットワークに対してデータに依存せずに保持することが理論的に証明されています。一方、表現力の条件は、さまざまな標準画像データセットを使用したバッチ正規化を使用して、深い(畳み込み)ResNetのデータに依存して保持することが数値的に示されています。また、提案されたアルゴリズムが、同じハイパーパラメータと反復の総数で、ヒューリスティックアルゴリズムと同等の一般化パフォーマンスを持っていることも示します。したがって、提案されたアルゴリズムは、実際の体制で深層学習の理論的保証を提供するためのステップと見なすことができます。
Existing global convergence guarantees of (stochastic) gradient descent do not apply to practical deep networks in the practical regime of deep learning beyond the neural tangent kernel (NTK) regime. This paper proposes an algorithm, which is ensured to have global convergence guarantees in the practical regime beyond the NTK regime, under a verifiable condition called the expressivity condition. The expressivity condition is defined to be both data-dependent and architecture-dependent, which is the key property that makes our results applicable for practical settings beyond the NTK regime. On the one hand, the expressivity condition is theoretically proven to hold data-independently for fully-connected deep neural networks with narrow hidden layers and a single wide layer. On the other hand, the expressivity condition is numerically shown to hold data-dependently for deep (convolutional) ResNet with batch normalization with various standard image datasets. We also show that the the proposed algorithm has generalization performances comparable with those of the heuristic algorithm, with the same hyper-parameters and total number of iterations. Therefore, the proposed algorithm can be viewed as a step towards providing theoretical guarantees for deep learning in the practical regime.