大規模な分散型トレーニングでは、マルチノードトレーニングのスケーラビリティを制限する勾配交換のためにかなりの通信帯域幅が必要であり、高価な高帯域幅ネットワークインフラストラクチャが必要です。モバイルデバイスでの分散トレーニング(フェデレーションラーニング)を使用すると、状況はさらに悪化します。これは、待ち時間が長くなり、スループットが低下し、接続が断続的に低下するためです。このホワイトペーパーでは、分散SGDの勾配交換の99.9%が冗長であることを確認し、通信帯域幅を大幅に削減するディープグラデーション圧縮(DGC)を提案します。圧縮中に精度を維持するために、DGCは4つの方法を採用しています。運動量補正、局所勾配クリッピング、運動量係数マスキング、およびウォームアップトレーニングです。私たちは、Cifar10、ImageNet、Penn Treebank、Librispeech Corpusなどの複数のデータセットを使用して、画像分類、音声認識、言語モデリングにディープグラデーション圧縮を適用しました。これらのシナリオでは、Deep Gradient Compressionは、精度を失うことなく270xから600xへの勾配圧縮比を達成し、ResNet-50の勾配サイズを97MBから0.35MBに、DeepSpeechに対して488MBから0.74MBに削減します。深い勾配圧縮により、安価な汎用1Gbpsイーサネットで大規模な分散トレーニングが可能になり、モバイルでの分散トレーニングが容易になります。コードは、https://github.com/synxlin/deep-gradient-compressionで入手できます。
Large-scale distributed training requires significant communication bandwidth for gradient exchange that limits the scalability of multi-node training, and requires expensive high-bandwidth network infrastructure. The situation gets even worse with distributed training on mobile devices (federated learning), which suffers from higher latency, lower throughput, and intermittent poor connections. In this paper, we find 99.9% of the gradient exchange in distributed SGD is redundant, and propose Deep Gradient Compression (DGC) to greatly reduce the communication bandwidth. To preserve accuracy during compression, DGC employs four methods: momentum correction, local gradient clipping, momentum factor masking, and warm-up training. We have applied Deep Gradient Compression to image classification, speech recognition, and language modeling with multiple datasets including Cifar10, ImageNet, Penn Treebank, and Librispeech Corpus. On these scenarios, Deep Gradient Compression achieves a gradient compression ratio from 270x to 600x without losing accuracy, cutting the gradient size of ResNet-50 from 97MB to 0.35MB, and for DeepSpeech from 488MB to 0.74MB. Deep gradient compression enables large-scale distributed training on inexpensive commodity 1Gbps Ethernet and facilitates distributed training on mobile. Code is available at: https://github.com/synxlin/deep-gradient-compression.