arXiv reaDer
Representation mitosis in wide neural networks
ディープ ニューラル ネットワーク (DNN) は、古典的なバイアスと分散のトレードオフに逆らいます。トレーニング データを正確に補間するパラメーターを DNN に追加すると、通常、一般化のパフォーマンスが向上します。このような過剰なパラメータ化の利点の背後にあるメカニズムを説明することは、深層学習理論にとって傑出した課題です。ここでは、画像分類用の Wide-ResNets などのさまざまなディープ アーキテクチャの最終層表現を研究し、*表現有糸分裂* と呼ばれる根本的なメカニズムの証拠を見つけます。最後の隠れた表現が十分に広い場合、そのニューロンは次のように分割される傾向があります。同一の情報を持ち、統計的に独立したノイズのみが互いに異なるグループ。有糸分裂のプロセスのように、そのようなグループ、つまり「クローン」の数は、層の幅とともに直線的に増加しますが、それは幅が臨界値を超える場合のみです。有糸分裂を活性化するための重要な要素は、トレーニング エラーがゼロになるまでトレーニング プロセスを継続することであることを示しています。最後に、私たちが検討した学習タスクの 1 つで、自動開発されたいくつかのクローンを含む幅広いモデルは、最後の層がクローンと同じサイズであるアーキテクチャに基づくディープ アンサンブルよりもはるかに優れたパフォーマンスを発揮することを示しています。
Deep neural networks (DNNs) defy the classical bias-variance trade-off: adding parameters to a DNN that exactly interpolates its training data will typically improve its generalisation performance. Explaining the mechanism behind the benefit of such over-parameterisation is an outstanding challenge for deep learning theory. Here, we study the last layer representation of various deep architectures such as Wide-ResNets for image classification and find evidence for an underlying mechanism that we call *representation mitosis*: if the last hidden representation is wide enough, its neurons tend to split into groups which carry identical information, and differ from each other only by a statistically independent noise. Like in a mitosis process, the number of such groups, or ``clones'', increases linearly with the width of the layer, but only if the width is above a critical value. We show that a key ingredient to activate mitosis is continuing the training process until the training error is zero. Finally, we show that in one of the learning tasks we considered, a wide model with several automatically developed clones performs significantly better than a deep ensemble based on architectures in which the last layer has the same size as the clones.
updated: Mon Jun 07 2021 10:18:54 GMT+0000 (UTC)
published: Mon Jun 07 2021 10:18:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト