arXiv reaDer
バッチ依存関係を削除しながらバッチ正規化に一致するようにアクティベーションをプロキシ正規化
Proxy-Normalizing Activations to Match Batch Normalization while Removing Batch Dependence
バッチに依存しない正規化で発生するパフォーマンス低下の理由を調査します。レイヤーの正規化とインスタンスの正規化の典型的な手法は、どちらもニューラルネットワークの事前アクティブ化で障害モードの出現を誘発することがわかります。(i)レイヤーの正規化はチャネルごとの定数関数への崩壊を誘発します。 (ii)インスタンスの正規化は、表現度の変化の兆候である、インスタンス統計の変動性の欠如を引き起こします。障害モード(ii)を悪化させることなく障害モード(i)を軽減するために、プロキシ配布を使用してアクティブ化後を正規化する手法「プロキシ正規化」を導入します。レイヤーの正規化またはグループの正規化と組み合わせると、このバッチに依存しない正規化は、バッチの正規化の動作をエミュレートし、そのパフォーマンスと一貫して一致するか、それを上回ります。
We investigate the reasons for the performance degradation incurred with batch-independent normalization. We find that the prototypical techniques of layer normalization and instance normalization both induce the appearance of failure modes in the neural network's pre-activations: (i) layer normalization induces a collapse towards channel-wise constant functions; (ii) instance normalization induces a lack of variability in instance statistics, symptomatic of an alteration of the expressivity. To alleviate failure mode (i) without aggravating failure mode (ii), we introduce the technique "Proxy Normalization" that normalizes post-activations using a proxy distribution. When combined with layer normalization or group normalization, this batch-independent normalization emulates batch normalization's behavior and consistently matches or exceeds its performance.
updated: Sat Jan 15 2022 14:53:50 GMT+0000 (UTC)
published: Mon Jun 07 2021 16:08:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト