arXiv reaDer
広いニューラルネットワークにおける表現有糸分裂
Representation mitosis in wide neural networks
ディープニューラルネットワーク(DNN)は、古典的な偏りと分散のトレードオフに逆らいます。トレーニングデータを補間するパラメーターをDNNに追加すると、通常、一般化のパフォーマンスが向上します。深いネットワークにおけるこの「良性の過剰適合」の背後にあるメカニズムを説明することは、依然として未解決の課題です。ここでは、さまざまな最先端の畳み込みニューラルネットワークの最後の隠れ層表現を研究し、「表現有糸分裂」と呼ばれる根本的なメカニズムの証拠を見つけます。最後の隠れ表現が十分に広い場合、そのニューロンは分裂する傾向があります同一の情報を持ち、統計的に独立したノイズによってのみ互いに異なるグループに分けられます。有糸分裂過程のように、そのようなグループ、または「クローン」の数は、幅が臨界値を超えている場合にのみ、層の幅に比例して増加します。有糸分裂を活性化するための重要な要素は、トレーニングエラーがゼロになるまでトレーニングプロセスを継続することであることを示しています。
Deep neural networks (DNNs) defy the classical bias-variance trade-off: adding parameters to a DNN that interpolates its training data will typically improve its generalization performance. Explaining the mechanism behind this ``benign overfitting'' in deep networks remains an outstanding challenge. Here, we study the last hidden layer representations of various state-of-the-art convolutional neural networks and find evidence for an underlying mechanism that we call "representation mitosis": if the last hidden representation is wide enough, its neurons tend to split into groups which carry identical information, and differ from each other only by a statistically independent noise. Like in a mitosis process, the number of such groups, or ``clones'', increases linearly with the width of the layer, but only if the width is above a critical value. We show that a key ingredient to activate mitosis is continuing the training process until the training error is zero.
updated: Thu Oct 07 2021 19:01:35 GMT+0000 (UTC)
published: Mon Jun 07 2021 10:18:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト