arXiv reaDer
SLIDE: 大規模ディープラーニングシステムにおけるハードウェアアクセラレーションに対するスマートなアルゴリズムの擁護
SLIDE : In Defense of Smart Algorithms over Hardware Acceleration for Large-Scale Deep Learning Systems
近年の機械学習システムでは、ディープラーニング(DL)アルゴリズムが中心的な役割を果たしている。データ量の増加に伴い、これらのデータを記憶して最先端の精度を得るためには、何億ものパラメータを持つ大規模なニューラルネットワークを学習するのが通例となっている。大規模なモデルとデータに関連する高価な計算を回避するために、コミュニティはモデル学習用の専用ハードウェアへの投資を増やしている。しかし、専用ハードウェアは高価であり、多数のタスクに一般化することは難しい。アルゴリズム面での進歩は、NVIDIA-V100 GPUのような強力なハードウェアに対する直接的な優位性を示すことができなかった。本論文はその例外を提供する。我々は、スマートなランダム化アルゴリズムと、マルチコアの並列処理およびワークロードの最適化を独自に組み合わせたSLIDE(Sub-LInear Deep Learning Engine)を提案する。SLIDEは、CPUのみを使用して、学習および推論時の計算量を大幅に削減し、最適化されたTensorflow(TF)の実装を、利用可能な最高のGPUで実行した場合よりも優れている。大規模な全結合アーキテクチャを持つ業界規模の推薦データセットでの評価では、44コアのCPUでSLIDEを使って学習した場合、Tesla V100上でTFを使って学習した同じネットワークよりも、任意の精度レベルで3.5倍以上(1時間対3.5時間)高速になることがわかった。同じCPUハードウェアでは、SLIDEはTFよりも10倍以上高速である。再現性を高めるために、コードとスクリプトを提供している。
Deep Learning (DL) algorithms are the central focus of modern machine learning systems. As data volumes keep growing, it has become customary to train large neural networks with hundreds of millions of parameters to maintain enough capacity to memorize these volumes and obtain state-of-the-art accuracy. To get around the costly computations associated with large models and data, the community is increasingly investing in specialized hardware for model training. However, specialized hardware is expensive and hard to generalize to a multitude of tasks. The progress on the algorithmic front has failed to demonstrate a direct advantage over powerful hardware such as NVIDIA-V100 GPUs. This paper provides an exception. We propose SLIDE (Sub-LInear Deep learning Engine) that uniquely blends smart randomized algorithms, with multi-core parallelism and workload optimization. Using just a CPU, SLIDE drastically reduces the computations during both training and inference outperforming an optimized implementation of Tensorflow (TF) on the best available GPU. Our evaluations on industry-scale recommendation datasets, with large fully connected architectures, show that training with SLIDE on a 44 core CPU is more than 3.5 times (1 hour vs. 3.5 hours) faster than the same network trained using TF on Tesla V100 at any given accuracy level. On the same CPU hardware, SLIDE is over 10x faster than TF. We provide codes and scripts for reproducibility.
updated: Sun Mar 01 2020 03:17:52 GMT+0000 (UTC)
published: Thu Mar 07 2019 19:12:07 GMT+0000 (UTC)
