arXiv reaDer
Colossal-AI: 大規模な並列トレーニングのための統合ディープラーニング システム
Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training
Transformer モデルの成功により、深層学習モデルの規模は数十億のパラメーターにまで押し上げられました。単一の GPU のメモリ リソースは限られているため、最適な並列戦略を選択するためのベスト プラクティスはまだ不足しています。ディープ ラーニングと並列コンピューティングの両方の分野の専門知識が必要になるからです。 Colossal-AI システムは、モデル トレーニングのシーケンシャル コードを分散環境にスケーリングする統合インターフェイスを導入することで、上記の課題に対処しました。データ、パイプライン、テンソル、シーケンスの並列処理などの並列トレーニング メソッド、およびゼロ冗長オプティマイザーと統合された異種トレーニング メソッドをサポートします。ベースライン システムと比較して、Colossal-AI は大規模モデルで最大 2.76 倍のトレーニング速度向上を達成できます。
The success of Transformer models has pushed the deep learning model scale to billions of parameters. Due to the limited memory resource of a single GPU, However, the best practice for choosing the optimal parallel strategy is still lacking, since it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism, as well as heterogeneous training methods integrated with zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.
updated: Thu Oct 05 2023 04:09:09 GMT+0000 (UTC)
published: Thu Oct 28 2021 04:45:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト