arXiv reaDer
STEバリアントを使用した量子化ニューラルネットワークのトレーニング:加法性ノイズアニーリングアルゴリズム
Training Quantised Neural Networks with STE Variants: the Additive Noise Annealing Algorithm
重みと特徴は区分的定数関数によって出力されるため、量子化ニューラルネットワーク(QNN)のトレーニングは微分不可能な最適化問題です。標準的な解決策は、推論と勾配の計算ステップでさまざまな関数を使用して、ストレートスルー推定量(STE)を適用することです。訓練されたネットワークのタスク精度を最大化することを目的として、いくつかのSTEバリアントが文献で提案されています。このホワイトペーパーでは、STEバリアントを分析し、QNNトレーニングへの影響を調査します。最初に、そのようなバリアントのほとんどが階段関数の確率的正規化としてモデル化できることを確認します。この直感的な解釈は新しいものではありませんが、私たちの厳密な議論は、さらなる変形に一般化されます。次に、異なる規則化を混合するQNNを分析し、ターゲットの不連続関数への点ごとの組成収束を保証するために、各レイヤーマップの適切に同期された平滑化が必要であることを発見します。これらの理論的洞察に基づいて、加法性ノイズアニーリング(ANA)を提案します。これは、標準のSTEとそのバリアントを特殊なケースとして含むQNNをトレーニングするための新しいアルゴリズムです。 CIFAR-10画像分類ベンチマークでANAをテストすると、タスクの精度への主な影響は、正規化の定性的な形状ではなく、ネットワークで使用されるさまざまなSTEバリアントの適切な同期によるものであることがわかります。理論的結果。
Training quantised neural networks (QNNs) is a non-differentiable optimisation problem since weights and features are output by piecewise constant functions. The standard solution is to apply the straight-through estimator (STE), using different functions during the inference and gradient computation steps. Several STE variants have been proposed in the literature aiming to maximise the task accuracy of the trained network. In this paper, we analyse STE variants and study their impact on QNN training. We first observe that most such variants can be modelled as stochastic regularisations of stair functions; although this intuitive interpretation is not new, our rigorous discussion generalises to further variants. Then, we analyse QNNs mixing different regularisations, finding that some suitably synchronised smoothing of each layer map is required to guarantee pointwise compositional convergence to the target discontinuous function. Based on these theoretical insights, we propose additive noise annealing (ANA), a new algorithm to train QNNs encompassing standard STE and its variants as special cases. When testing ANA on the CIFAR-10 image classification benchmark, we find that the major impact on task accuracy is not due to the qualitative shape of the regularisations but to the proper synchronisation of the different STE variants used in a network, in accordance with the theoretical results.
updated: Mon Mar 21 2022 20:14:27 GMT+0000 (UTC)
published: Mon Mar 21 2022 20:14:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト