arXiv reaDer
ゼロの初期化: ゼロと 1 のみを使用した残留ネットワークの初期化
ZerO Initialization: Initializing Residual Networks with only Zeros and Ones
ディープ ニューラル ネットワークは通常、ランダムな重みで初期化され、適切に選択された初期分散を使用して、トレーニング中の安定した信号伝搬を保証します。ただし、特にレイヤーの数が増えると、適切な分散を選択することが難しくなります。この作業では、ランダムな重みの初期化を完全に決定論的な初期化スキーム、つまり ZerO に置き換えます。ZerO は、恒等変換とアダマール変換に基づいて、ネットワークの重みを 0 と 1 のみ (正規化係数まで) で初期化します。理論的研究と実証的研究の両方を通じて、ZerO が表現力を損なうことなくネットワークをトレーニングできることを示しています。 ResNet に ZerO を適用すると、ImageNet を含むさまざまなデータセットで最先端のパフォーマンスが達成されます。これは、ネットワークの初期化にランダムな重みが不要である可能性があることを示唆しています。さらに、ZerO には、超ディープ ネットワークのトレーニング (バッチ正規化なし)、低ランクでスパースなソリューションをもたらす低ランクの学習軌跡の表示、トレーニングの再現性の向上など、多くの利点があります。
Deep neural networks are usually initialized with random weights, with adequately selected initial variance to ensure stable signal propagation during training. However, selecting the appropriate variance becomes challenging especially as the number of layers grows. In this work, we replace random weight initialization with a fully deterministic initialization scheme, viz., ZerO, which initializes the weights of networks with only zeros and ones (up to a normalization factor), based on identity and Hadamard transforms. Through both theoretical and empirical studies, we demonstrate that ZerO is able to train networks without damaging their expressivity. Applying ZerO on ResNet achieves state-of-the-art performance on various datasets, including ImageNet, which suggests random weights may be unnecessary for network initialization. In addition, ZerO has many benefits, such as training ultra deep networks (without batch-normalization), exhibiting low-rank learning trajectories that result in low-rank and sparse solutions, and improving training reproducibility.
updated: Tue Aug 23 2022 03:00:36 GMT+0000 (UTC)
published: Mon Oct 25 2021 06:17:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト