arXiv reaDer
Checkmate: Breaking the Memory Wall with Optimal Tensor Rematerialization
 トレードオフのDNNトレーニング時間とメモリ要件の問題を、事前のチェックポイント戦略の一般化であるテンソル再実体化最適化問題として定式化します。 Checkmateは、既成のMILPソルバーまたは近似アルゴリズムを備えた最適に近いスケジュールを使用して、合理的な時間(1時間以内)に最適な再実体化スケジュールを解決し、これらのスケジュールを使用して何百万ものトレーニング反復を加速するシステムを導入します。私たちの方法は、複雑で現実的なアーキテクチャに対応し、アクセラレータ固有のプロファイルベースのコストモデルを使用することでハードウェアに対応しています。 Checkmateを使用すると、トレーニングコストを削減できるだけでなく、実際のネットワークを最大5.1倍大きい入力サイズでトレーニングできます。 Checkmateは、で入手できるオープンソースプロジェクトです。
We formalize the problem of trading-off DNN training time and memory requirements as the tensor rematerialization optimization problem, a generalization of prior checkpointing strategies. We introduce Checkmate, a system that solves for optimal rematerialization schedules in reasonable times (under an hour) using off-the-shelf MILP solvers or near-optimal schedules with an approximation algorithm, then uses these schedules to accelerate millions of training iterations. Our method scales to complex, realistic architectures and is hardware-aware through the use of accelerator-specific, profile-based cost models. In addition to reducing training cost, Checkmate enables real-world networks to be trained with up to 5.1x larger input sizes. Checkmate is an open-source project, available at
updated: Thu May 14 2020 17:46:43 GMT+0000 (UTC)
published: Mon Oct 07 2019 07:54:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト