arXiv reaDer
ビデオデータからの潜在的な報酬の形成とデモンストレーションで実行することを学ぶ
Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data
NIPS 2017の「Learningtorun」コンペティションで示されているように、ヒューマノイドロボットの効率的な動作動作をゼロから作成することを学ぶことは難しい問題です。このコンペティションの目標は、ヒューマノイドボディの2本足モデルをトレーニングすることでした。シミュレートされたレースコースを最高速度で走ります。すべての提出物は、強化学習(RL)にタブララサアプローチを採用し、比較的高速であるが、最適な実行動作を生成することができませんでした。このホワイトペーパーでは、人間が走っているビデオのデータ(YouTubeから取得したものなど)を使用して、ヒューマノイド学習エージェントの報酬を形成し、学習をスピードアップしてより良い結果を生み出す方法を示します。具体的には、一定の時間間隔で主要な身体部分の位置を使用して、潜在的な報酬形成(PBRS)の潜在的な機能を定義しています。 PBRSは最適なポリシーを変更しないため、このアプローチにより、RLエージェントはビデオに示されている人間の動きの準最適性を克服できます。 NIPSコンペティションの上位10のアプローチから選択した手法とさらなる最適化を組み合わせて、ベースラインとして高性能エージェントを作成する実験を紹介します。次に、ビデオベースの報酬シェーピングがパフォーマンスをさらに向上させ、12時間のトレーニングでベースラインの2倍の速度で実行されるRLエージェントを実現する方法を示します。さらに、私たちのアプローチがビデオの次善の実行動作を克服できることを示します。学習したポリシーは、ビデオから実行中のエージェントのポリシーを大幅に上回っています。
Learning to produce efficient movement behaviour for humanoid robots from scratch is a hard problem, as has been illustrated by the "Learning to run" competition at NIPS 2017. The goal of this competition was to train a two-legged model of a humanoid body to run in a simulated race course with maximum speed. All submissions took a tabula rasa approach to reinforcement learning (RL) and were able to produce relatively fast, but not optimal running behaviour. In this paper, we demonstrate how data from videos of human running (e.g. taken from YouTube) can be used to shape the reward of the humanoid learning agent to speed up the learning and produce a better result. Specifically, we are using the positions of key body parts at regular time intervals to define a potential function for potential-based reward shaping (PBRS). Since PBRS does not change the optimal policy, this approach allows the RL agent to overcome sub-optimalities in the human movements that are shown in the videos. We present experiments in which we combine selected techniques from the top ten approaches from the NIPS competition with further optimizations to create an high-performing agent as a baseline. We then demonstrate how video-based reward shaping improves the performance further, resulting in an RL agent that runs twice as fast as the baseline in 12 hours of training. We furthermore show that our approach can overcome sub-optimal running behaviour in videos, with the learned policy significantly outperforming that of the running agent from the video.
updated: Wed Dec 16 2020 09:46:58 GMT+0000 (UTC)
published: Wed Dec 16 2020 09:46:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト