arXiv reaDer
単射状態画像マッピングは、視覚的敵対者模倣学習を促進します
Injective State-Image Mapping facilitates Visual Adversarial Imitation Learning
  ゲームやエンターテインメントなどのアプリケーションでの仮想自律エージェントの使用の増加には、自然な動きやアクションに対するより優れた制御ポリシーが必要です。ハードコーディングモーションルーチンの従来のアプローチとは異なり、生のビデオデモを直接模倣して制御ポリシーを取得するためのディープラーニング手法を提案します。このドメインの以前の方法は、専門家のビデオから低次元の特徴を抽出し、その後に個別の手作りの報酬推定ステップを行うことに依存しています。私たちは、Generative Adversarial Networks(GAN)を使用して特徴抽出と報酬推定のステップを共同で学習することにより、手作業による報酬関数への依存を減らす模倣学習フレームワークを提案します。このホワイトペーパーでの主な貢献は、低レベルのジョイント状態(角度と速度)の軌跡と対応する生のビデオストリームとの間の単射マッピングの下で、ビデオデモンストレーションで敵の模倣学習を実行することは、状態の軌跡から学習することと同等であることを示すことです。実験結果から、提案された生のビデオからの敵対的学習方法は、既存の手作りのビデオ模倣方法を頻繁に上回る一方で、最先端の模倣学習技術と同様のパフォーマンスを生み出すことがわかります。さらに、YouTubeのビデオデモを真の報酬シグナルから学習したエージェントと同様のパフォーマンスで模倣することにより、この方法がアクションポリシーを学習できることを示します。 https://ibm.biz/BdzzNAで補足ビデオ提出を参照してください。
The growing use of virtual autonomous agents in applications like games and entertainment demands better control policies for natural-looking movements and actions. Unlike the conventional approach of hard-coding motion routines, we propose a deep learning method for obtaining control policies by directly mimicking raw video demonstrations. Previous methods in this domain rely on extracting low-dimensional features from expert videos followed by a separate hand-crafted reward estimation step. We propose an imitation learning framework that reduces the dependence on hand-engineered reward functions by jointly learning the feature extraction and reward estimation steps using Generative Adversarial Networks (GANs). Our main contribution in this paper is to show that under injective mapping between low-level joint state (angles and velocities) trajectories and corresponding raw video stream, performing adversarial imitation learning on video demonstrations is equivalent to learning from the state trajectories. Experimental results show that the proposed adversarial learning method from raw videos produces a similar performance to state-of-the-art imitation learning techniques while frequently outperforming existing hand-crafted video imitation methods. Furthermore, we show that our method can learn action policies by imitating video demonstrations on YouTube with similar performance to learned agents from true reward signals. Please see the supplementary video submission at https://ibm.biz/BdzzNA.
updated: Fri Oct 25 2019 09:32:10 GMT+0000 (UTC)
published: Tue Oct 02 2018 08:22:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト