バッチ[Ioffeand Szegedy、2015]、重み[Salimansand Kingma、2016]、インスタンス[Ulyanov et al。、2016]、レイヤー正規化[Baet al。、2016]などの正規化方法は、現代の機械学習で広く使用されています。ここでは、重み正規化(WN)法[Salimans and Kingma、2016]と、パラメーター化された最小二乗回帰のためのパラメーター化された投影勾配降下法(rPGD)と呼ばれるバリアントを研究します。 WNとrPGDは、スケールgと単位ベクトルwを使用して重みを再パラメーター化するため、目的関数は非凸になります。この非凸定式化は、元の目的の最急降下法と比較して、有益な正則化効果があることを示します。これらの方法は、重みを適応的に正則化し、ゼロから遠く離れた初期化の場合でも、最小l2ノルム解の近くに収束します。 gとwの特定のステップサイズについて、最小ノルム解の近くに収束できることを示します。これは、最急降下法の動作とは異なります。最急降下法は、特徴行列の範囲空間内のポイントで開始された場合にのみ最小ノルム解に収束するため、初期化の影響を受けやすくなります。
Normalization methods such as batch [Ioffe and Szegedy, 2015], weight [Salimansand Kingma, 2016], instance [Ulyanov et al., 2016], and layer normalization [Baet al., 2016] have been widely used in modern machine learning. Here, we study the weight normalization (WN) method [Salimans and Kingma, 2016] and a variant called reparametrized projected gradient descent (rPGD) for overparametrized least-squares regression. WN and rPGD reparametrize the weights with a scale g and a unit vector w and thus the objective function becomes non-convex. We show that this non-convex formulation has beneficial regularization effects compared to gradient descent on the original objective. These methods adaptively regularize the weights and converge close to the minimum l2 norm solution, even for initializations far from zero. For certain stepsizes of g and w , we show that they can converge close to the minimum norm solution. This is different from the behavior of gradient descent, which converges to the minimum norm solution only when started at a point in the range space of the feature matrix, and is thus more sensitive to initialization.