Forward and Backward Information Retention for Accurate Binary Neural Networks
 重みとアクティベーションの二値化は、ディープニューラルネットワーク圧縮への効果的なアプローチであり、ビット単位の操作を活用して推論を加速できます。多くの二値化方法は、順伝播の量子化誤差を最小化することでモデルの精度を向上させましたが、二値化されたモデルと完全な精度のモデルの間には顕著なパフォーマンスギャップが残っています。私たちの経験的研究は、量子化が前方伝搬と後方伝搬の両方で情報損失をもたらすことを示しています。これは、正確なバイナリニューラルネットワークのトレーニングのボトルネックです。これらの問題に対処するために、順方向活性化と逆方向勾配で構成される情報を保持する情報保持ネットワーク(IR-Net)を提案します。 IR-Netは、主に2つの技術的貢献に依存しています。(1)Libra Parameter Binarization(Libra-PB):前方伝播におけるバランスの取れた標準化された重みにより、パラメーターの量子化誤差と情報損失の両方を同時に最小化します。 (2)Error Decay Estimator(EDE):更新能力と正確な勾配を合わせて考慮しながら、後方伝播の符号関数を徐々に近似することにより、勾配の情報損失を最小限に抑えます。バイナリネットワークの順方向プロセスと逆方向プロセスの両方を統合された情報の観点から調査したのは初めてです。これにより、ネットワークの二値化のメカニズムに対する新しい洞察が得られます。 CIFAR-10およびImageNetデータセットのさまざまなネットワーク構造を使用した包括的な実験により、提案されたIR-Netが常に最新の量子化手法を上回ることができることが明らかになりました。
Weight and activation binarization is an effective approach to deep neural network compression and can accelerate the inference by leveraging bitwise operations. Although many binarization methods have improved the accuracy of the model by minimizing the quantization error in forward propagation, there remains a noticeable performance gap between the binarized model and the full-precision one. Our empirical study indicates that the quantization brings information loss in both forward and backward propagation, which is the bottleneck of training accurate binary neural networks. To address these issues, we propose an Information Retention Network (IR-Net) to retain the information that consists in the forward activations and backward gradients. IR-Net mainly relies on two technical contributions: (1) Libra Parameter Binarization (Libra-PB): simultaneously minimizing both quantization error and information loss of parameters by balanced and standardized weights in forward propagation; (2) Error Decay Estimator (EDE): minimizing the information loss of gradients by gradually approximating the sign function in backward propagation, jointly considering the updating ability and accurate gradients. We are the first to investigate both forward and backward processes of binary networks from the unified information perspective, which provides new insight into the mechanism of network binarization. Comprehensive experiments with various network structures on CIFAR-10 and ImageNet datasets manifest that the proposed IR-Net can consistently outperform state-of-the-art quantization methods.
updated: Mon Mar 09 2020 16:31:03 GMT+0000 (UTC)
published: Tue Sep 24 2019 10:12:36 GMT+0000 (UTC)
