arXiv reaDer
DenseShift: 正確で転送可能な低ビット シフト ネットワークに向けて
DenseShift: Towards Accurate and Transferable Low-Bit Shift Network
リソース要件が増え続けるため、リソースの少ないエッジ デバイスにディープ ニューラル ネットワークを展開することは困難です。最近の調査では、計算とメモリ消費を削減するために、乗算のないニューラル ネットワークが提案されています。シフト ニューラル ネットワークは、これらの削減に向けた最も効果的なツールの 1 つです。ただし、既存の低ビット シフト ネットワークは、完全精度のものほど正確ではなく、固有の設計上の欠陥により、広範囲のタスクに効率的に転送できません。以下の斬新な設計を活用した DenseShift ネットワークを提案します。まず、低ビット シフト ネットワークの重みゼロの値は、モデルの容量に役立たず、モデルの推論を単純化しないことを示します。したがって、モデル容量を増やしながら推論を簡素化するために、ゼロフリーシフトメカニズムを使用することを提案します。次に、低ビット シフト ネットワークのトレーニングにおける重み凍結の問題を測定する新しいメトリックを設計し、トレーニング効率を改善するための符号スケール分解を提案します。第 3 に、転移学習シナリオでモデルのパフォーマンスを向上させるために、低分散ランダム初期化戦略を提案します。私たちは、さまざまなコンピューター ビジョンおよび音声タスクについて広範な実験を行っています。実験結果は、DenseShift ネットワークが既存の低ビット乗算のないネットワークよりも大幅に優れており、完全精度の対応するネットワークと競合するパフォーマンスを達成できることを示しています。また、精度を落とさずに強力な転移学習性能を発揮します。
Deploying deep neural networks on low-resource edge devices is challenging due to their ever-increasing resource requirements. Recent investigations propose multiplication-free neural networks to reduce computation and memory consumption. Shift neural network is one of the most effective tools towards these reductions. However, existing low-bit shift networks are not as accurate as their full precision counterparts and cannot efficiently transfer to a wide range of tasks due to their inherent design flaws. We propose DenseShift network that exploits the following novel designs. First, we demonstrate that the zero-weight values in low-bit shift networks are neither useful to the model capacity nor simplify the model inference. Therefore, we propose to use a zero-free shifting mechanism to simplify inference while increasing the model capacity. Second, we design a new metric to measure the weight freezing issue in training low-bit shift networks, and propose a sign-scale decomposition to improve the training efficiency. Third, we propose the low-variance random initialization strategy to improve the model's performance in transfer learning scenarios. We run extensive experiments on various computer vision and speech tasks. The experimental results show that DenseShift network significantly outperforms existing low-bit multiplication-free networks and can achieve competitive performance to the full-precision counterpart. It also exhibits strong transfer learning performance with no drop in accuracy.
updated: Sat Aug 20 2022 15:17:40 GMT+0000 (UTC)
published: Sat Aug 20 2022 15:17:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト