arXiv reaDer
直交する過剰パラメータ化されたトレーニング
Orthogonal Over-Parameterized Training
ニューラルネットワークの誘導バイアスは、主にアーキテクチャとトレーニングアルゴリズムによって決定されます。優れた一般化を実現するには、ニューラルネットワークを効果的にトレーニングする方法が非常に重要です。超球上のニューロンの多様性を特徴付ける超球エネルギーを確実に最小化できる、新しい直交オーバーパラメータトレーニング(OPT)フレームワークを提案します。トレーニング中に最小の超球エネルギーを維持することにより、OPTは経験的な一般化を大幅に改善できます。具体的には、OPTはランダムに初期化されたニューロンの重みを修正し、これらのニューロンに適用される直交変換を学習します。直交化アルゴリズムの展開、直交パラメーター化の適用、直交性を維持する勾配降下法の設計など、このような直交変換を学習するための複数の方法を検討します。スケーラビリティを向上させるために、ニューロンの部分的な次元に対して確率的に直交変換を実行する確率的OPTを提案します。興味深いことに、OPTは、ニューロンの適切な座標系を学習することが一般化に不可欠であることを明らかにしています。 OPTがより良い一般化をもたらす理由についていくつかの洞察を提供します。広範な実験により、標準トレーニングに対するOPTの優位性が検証されます。
The inductive bias of a neural network is largely determined by the architecture and the training algorithm. To achieve good generalization, how to effectively train a neural network is of great importance. We propose a novel orthogonal over-parameterized training (OPT) framework that can provably minimize the hyperspherical energy which characterizes the diversity of neurons on a hypersphere. By maintaining the minimum hyperspherical energy during training, OPT can greatly improve the empirical generalization. Specifically, OPT fixes the randomly initialized weights of the neurons and learns an orthogonal transformation that applies to these neurons. We consider multiple ways to learn such an orthogonal transformation, including unrolling orthogonalization algorithms, applying orthogonal parameterization, and designing orthogonality-preserving gradient descent. For better scalability, we propose the stochastic OPT which performs orthogonal transformation stochastically for partial dimensions of neurons. Interestingly, OPT reveals that learning a proper coordinate system for neurons is crucial to generalization. We provide some insights on why OPT yields better generalization. Extensive experiments validate the superiority of OPT over the standard training.
updated: Sat Jun 05 2021 00:31:21 GMT+0000 (UTC)
published: Thu Apr 09 2020 17:16:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト