リソースを集中的にシミュレートした環境での分散強化学習のための方法である、分散型分散プロキシポリシー最適化(DD-PPO)を紹介します。 DD-PPOは分散(複数のマシンを使用)、分散(中央サーバーを欠く)、同期(計算が古くなることはない)であり、概念的にシンプルで実装が容易です。 Habitat-Simでナビゲートする仮想ロボットのトレーニングに関する私たちの実験では、DD-PPOはほぼ線形のスケーリングを示し、シリアル実装で128 GPUで107倍の高速化を実現しています。このスケーリングを活用して、エージェントを25億ステップの経験(80年の人間経験に相当)でトレーニングします.64 GPUを使用して3日間の実時間で6か月以上のGPU時間のトレーニングを行います。この大規模なトレーニングは、Habitat Autonomous Navigation Challenge 2019の最新技術を設定するだけでなく、RGB-Dカメラと地図から直接アクセスすることなく、目に見えない環境でのほぼ完璧な自律ナビゲーションを実現しますGPS +コンパスセンサー。偶然にも、エラーと計算はべき乗則のような分布を示します。したがって、ピークパフォーマンスの90%は比較的早く(1億ステップで)、比較的安価に(8 GPUで1日未満)取得されます。最後に、学習したシーンの理解とナビゲーションポリシーを他のナビゲーションタスクに転送できることを示します。これは、ImageNetの事前トレーニング+具現化されたAIのタスク固有の微調整に類似しています。このモデルは、これらの転送タスクでImageNetの事前トレーニング済みCNNよりも優れており、ユニバーサルリソースとして機能します(すべてのモデルとコードは公開されています)。
We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).