arXiv reaDer
15分間の運動学のトレーニング:ビデオでの大規模な分散トレーニング
Training Kinetics in 15 Minutes: Large-scale Distributed Training on Videos
 ディープビデオ認識は、特にKinetics [1]のような大規模なデータセットでは、画像認識よりも計算コストが高くなります。したがって、大量のビデオを処理するには、トレーニングのスケーラビリティが不可欠です。このホワイトペーパーでは、ビデオネットワークのトレーニングのスケーラビリティに影響を与える要因を検討します。データの読み込み(ディスクからGPUへのデータ移動)、通信(ネットワーク上のデータ移動)、計算FLOPを含む3つのボトルネックを認識しています。スケーラビリティを改善するために、3つの設計ガイドラインを提案します。 (2)データの移動を減らし、データの読み込み効率を高めるための入力フレームの数を減らします。 (3)ネットワークトラフィックを削減し、ネットワークの効率を高めるためのモデルのサイズを小さくします。これらのガイドラインを使用して、分散トレーニングに効率的でスケーラブルな新しいオペレーターTemporal Shift Module(TSM)を設計しました。 TSMモデルは、以前のI3Dモデルに比べて1.8倍のスループットを達成できます。 TSMモデルのトレーニングを1,536 GPUにスケールアップし、12,288ビデオクリップ/ 98,304イメージのミニバッチを使用して、精度を損なうことはありません。このようなハードウェア対応モデルの設計により、Summitスーパーコンピューターでのトレーニングをスケールアップし、Kineticsデータセットでのトレーニング時間を49時間55分から14分13秒に短縮し、74.0%のトップ1の精度を達成できます。従来の3Dビデオモデルより1.6倍および2.9倍高速で、精度が向上しています。コードと詳細については、http://tsm-hanlab.mit.eduをご覧ください。
Deep video recognition is more computationally expensive than image recognition, especially on large-scale datasets like Kinetics [1]. Therefore, training scalability is essential to handle a large amount of videos. In this paper, we study the factors that impact the training scalability of video networks. We recognize three bottlenecks, including data loading (data movement from disk to GPU), communication (data movement over networking), and computation FLOPs. We propose three design guidelines to improve the scalability: (1) fewer FLOPs and hardware-friendly operator to increase the computation efficiency; (2) fewer input frames to reduce the data movement and increase the data loading efficiency; (3) smaller model size to reduce the networking traffic and increase the networking efficiency. With these guidelines, we designed a new operator Temporal Shift Module (TSM) that is efficient and scalable for distributed training. TSM model can achieve 1.8x higher throughput compared to previous I3D models. We scale up the training of the TSM model to 1,536 GPUs, with a mini-batch of 12,288 video clips/98,304 images, without losing the accuracy. With such hardware-aware model design, we are able to scale up the training on Summit supercomputer and reduce the training time on Kinetics dataset from 49 hours 55 minutes to 14 minutes 13 seconds, achieving a top-1 accuracy of 74.0%, which is 1.6x and 2.9x faster than previous 3D video models with higher accuracy. The code and more details can be found here: http://tsm-hanlab.mit.edu.
updated: Sat Dec 07 2019 23:04:39 GMT+0000 (UTC)
published: Tue Oct 01 2019 17:58:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト