Denoising Noisy Neural Networks: A Bayesian Approach with Compensation
ノイズの多いニューラルネットワーク(NoisyNN)は、ノイズが存在する場合のNNの推論とトレーニングを指します。ノイズは、ほとんどの通信およびストレージシステムに固有のものです。したがって、NoisyNNは、ワイヤレスデバイスがノイズの多いワイヤレスチャネルを介してNNを共同でトレーニングするフェデレーションエッジラーニングや、NNがアナログストレージメディアに実装/保存される場合など、多くの新しいアプリケーションで登場します。このホワイトペーパーでは、NoisyNNの基本的な問題、つまり、ノイズの多い観測または兆候から汚染されていないNNの重みを推定する方法について説明します。以前のすべての作業は、推定されたNN重みの尤度関数を最大化するために最尤(ML)推定に依存していましたが、このペーパーは、ML推定器が一般に最適ではないことを示しています。従来のML推定量の準最適性を克服するために、MMSE_pb推定量を提示して、母集団補償器とバイアス補償器を使用した補償平均二乗誤差(MSE)を最小化します。私たちのアプローチは、1)ノイズの多い推論の両方で発生するNoisyNNに対してうまく機能します。ノイズは、すでにトレーニングされたNN重みの推論フェーズでのみ導入されます。 2)ノイズの多いトレーニング。トレーニングの過程でノイズが発生します。異なるNNアーキテクチャを使用したCIFAR-10およびSST-2データセットでの広範な実験により、NoisyNNのノイズ除去に使用した場合に、ML推定器よりもMMSE_pb推定器のパフォーマンスが大幅に向上することが確認されます。ノイズの多い推論の場合、平均ゲインは、ノイズのあるResNet34モデルで最大156%、ノイズのあるBERTモデルで最大14.7%です。ノイズの多いトレーニングの場合、ノイズの多いResNet18モデルの平均ゲインは最大18.1dBです。
Noisy neural networks (NoisyNNs) refer to the inference and training of NNs in the presence of noise. Noise is inherent in most communication and storage systems; hence, NoisyNNs emerge in many new applications, including federated edge learning, where wireless devices collaboratively train a NN over a noisy wireless channel, or when NNs are implemented/stored in an analog storage medium. This paper studies a fundamental problem of NoisyNNs: how to estimate the uncontaminated NN weights from their noisy observations or manifestations. Whereas all prior works relied on the maximum likelihood (ML) estimation to maximize the likelihood function of the estimated NN weights, this paper demonstrates that the ML estimator is in general suboptimal. To overcome the suboptimality of the conventional ML estimator, we put forth an MMSE_pb estimator to minimize a compensated mean squared error (MSE) with a population compensator and a bias compensator. Our approach works well for NoisyNNs arising in both 1) noisy inference, where noise is introduced only in the inference phase on the already-trained NN weights; and 2) noisy training, where noise is introduced over the course of training. Extensive experiments on the CIFAR-10 and SST-2 datasets with different NN architectures verify the significant performance gains of the MMSE_pb estimator over the ML estimator when used to denoise the NoisyNN. For noisy inference, the average gains are up to 156% for a noisy ResNet34 model and 14.7% for a noisy BERT model; for noisy training, the average gains are up to 18.1 dB for a noisy ResNet18 model.
