AlexNetやVGG19のような古典的なディープネットアーキテクチャは、CIFAR-10などの標準データセットの幅---畳み込み層のチャネル数、および完全に接続された内部層のノード数---無限に増加することが許可されていますか?このような質問は、最適化と一般化に関するディープラーニングとその謎を理論的に理解するための探求の最前線にきました。また、ディープラーニングをガウスプロセスやカーネルなどの概念に関連付けます。最近の論文[Jacot et al。、2018]は、勾配降下法によって訓練された無限幅の制限で完全に接続されたディープネットの動作をキャプチャするニューラルタンジェントカーネル(NTK)を紹介しました。このオブジェクトは、他のいくつかの最近の論文で暗黙的でした。このようなアイデアの魅力は、純粋なカーネルベースの方法を使用して、無限幅の完全に訓練されたディープネットのパワーをキャプチャすることです。現在の論文では、畳み込みニューラルネットワーク(NTK)と呼ばれるNTKの拡張を計算するための最初の効率的な正確なアルゴリズムと、このアルゴリズムの効率的なGPU実装を提供します。これにより、CIFAR-10での純粋なカーネルベースのメソッドのパフォーマンスに関する重要な新しいベンチマークが得られ、[Novak et al。、2019]で報告されているメソッドよりも10%高く、対応する有限のディープネットアーキテクチャ(バッチの正規化などがオフになっている場合)。理論的には、我々はまた、完全な訓練を受け、十分に広いネットが実際にNTKを使用してカーネル回帰予測と同等であることを示す第1の非漸近的証明を与えます。
How well does a classic deep net architecture like AlexNet or VGG19 classify on a standard dataset such as CIFAR-10 when its width --- namely, number of channels in convolutional layers, and number of nodes in fully-connected internal layers --- is allowed to increase to infinity? Such questions have come to the forefront in the quest to theoretically understand deep learning and its mysteries about optimization and generalization. They also connect deep learning to notions such as Gaussian processes and kernels. A recent paper [Jacot et al., 2018] introduced the Neural Tangent Kernel (NTK) which captures the behavior of fully-connected deep nets in the infinite width limit trained by gradient descent; this object was implicit in some other recent papers. An attraction of such ideas is that a pure kernel-based method is used to capture the power of a fully-trained deep net of infinite width. The current paper gives the first efficient exact algorithm for computing the extension of NTK to convolutional neural nets, which we call Convolutional NTK (CNTK), as well as an efficient GPU implementation of this algorithm. This results in a significant new benchmark for the performance of a pure kernel-based method on CIFAR-10, being 10% higher than the methods reported in [Novak et al., 2019], and only 6% lower than the performance of the corresponding finite deep net architecture (once batch normalization, etc. are turned off). Theoretically, we also give the first non-asymptotic proof showing that a fully-trained sufficiently wide net is indeed equivalent to the kernel regression predictor using NTK.