SWA-Gaussian(SWAG)、深層学習における不確実性の表現とキャリブレーションのためのシンプルでスケーラブルな汎用アプローチを提案します。確率的勾配降下法(SGD)の最初の瞬間を修正学習率スケジュールで反復計算する確率的重み平均(SWA)は、ディープラーニングの一般化を改善することが最近示されました。 SWAGでは、SWAソリューションを最初のモーメントとして使用し、SGD反復から導出された低ランクと対角共分散を使用してガウシアンを近似し、ニューラルネットワークの重みで近似の事後分布を形成します。次に、このガウス分布からサンプリングして、ベイジアンモデルの平均化を実行します。 SGD反復の定常分布を記述する結果に従って、SWAGが真の後部の形状に近似することが経験的にわかっています。さらに、MCドロップアウト、KFACラプラス、SGLD、温度スケーリングなどの多くの一般的な代替手段と比較して、SWAGは、サンプル外検出、キャリブレーション、転送学習など、さまざまなタスクで良好に機能することを実証します。
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.