arXiv reaDer
重みとアクティベーションの共同量子化と剪定によるディープニューラルネットワークのトレーニング
Training Deep Neural Networks with Joint Quantization and Pruning of Weights and Activations
量子化と剪定は、ディープニューラルネットワークの推論コストを削減するために使用されるコア技術です。最先端の量子化技術は現在、重みとアクティベーションの両方に適用されています。ただし、プルーニングはほとんどの場合、ネットワークの重みにのみ適用されます。この作業では、トレーニング中の深部神経ネットワークの重みとアクティブ化の両方に、新しい均一量子化と非構造化剪定法を共同で適用します。私たちの方法を使用して、現在受け入れられているプルーン-次に-定量化パラダイムを幅広いコンピュータービジョンタスクにわたって経験的に評価し、ディープニューラルネットワークの重みとアクティブ化の両方に適用した場合の非可換性を観察します。これらの観察結果に基づいて、非可換性の仮説を明確にします。特定のタスク用にトレーニングされている特定のディープニューラルネットワークについて、ネットワークパフォーマンスを最適化するために量子化とプルーニングを導入できる正確なトレーニングスケジュールが存在します。この最適な順序が存在するだけでなく、識別タスクと生成タスクによっても異なることを確認します。トレーニングフレームワーク内で最適なトレーニングスケジュールを使用して、既存のソリューションよりもメモリフットプリントあたりのパフォーマンスが向上していることを示します。
Quantization and pruning are core techniques used to reduce the inference costs of deep neural networks. State-of-the-art quantization techniques are currently applied to both the weights and activations; however, pruning is most often applied to only the weights of the network. In this work, we jointly apply novel uniform quantization and unstructured pruning methods to both the weights and activations of deep neural networks during training. Using our methods, we empirically evaluate the currently accepted prune-then-quantize paradigm across a wide range of computer vision tasks and observe a non-commutative nature when applied to both the weights and activations of deep neural networks. Informed by these observations, we articulate the non-commutativity hypothesis: for a given deep neural network being trained for a specific task, there exists an exact training schedule in which quantization and pruning can be introduced to optimize network performance. We identify that this optimal ordering not only exists, but also varies across discriminative and generative tasks. Using the optimal training schedule within our training framework, we demonstrate increased performance per memory footprint over existing solutions.
updated: Mon Nov 01 2021 09:06:55 GMT+0000 (UTC)
published: Fri Oct 15 2021 16:14:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト