現実世界で強化学習(RL)エージェントを展開するための重要な課題は、報酬機能がない場合のスキルの発見、表現、および再利用です。この目的のために、ラベルのないマルチビュービデオからスペースを埋め込むタスクに依存しないスキルを学習するための新しいアプローチを提案します。私たちの方法は、敵対的損失を使用することにより、タスクコンテキストから独立して埋め込む一般的なスキルを学習します。エントロピー正則化された敵対スキル伝達損失と状態表現を学習するために時間的ビデオコヒーレンスを利用するメトリック学習損失を組み合わせます。メトリック学習損失は、同じ観測の同時視点を引き付け、視覚的に類似したフレームを時間的に隣接するものからはじくことにより、もつれのない表現を学習します。敵対的なスキル転送の損失により、複数のタスクドメインで学習したスキルの埋め込みの再利用性が向上します。学習した埋め込みにより、以前に見たスキルの補間を必要とする新しいタスクを解決するための継続的な制御ポリシーのトレーニングが可能になることを示します。シミュレーションと実世界のデータの両方を用いた広範な評価は、ラベルのないインタラクションビデオから譲渡可能なスキルを学習し、新しいタスクのためにそれらを作成する方法の有効性を示しています。コード、事前学習済みのモデル、およびデータセットは、http://robotskills.cs.uni-freiburg.deで入手できます。
Key challenges for the deployment of reinforcement learning (RL) agents in the real world are the discovery, representation and reuse of skills in the absence of a reward function. To this end, we propose a novel approach to learn a task-agnostic skill embedding space from unlabeled multi-view videos. Our method learns a general skill embedding independently from the task context by using an adversarial loss. We combine a metric learning loss, which utilizes temporal video coherence to learn a state representation, with an entropy regularized adversarial skill-transfer loss. The metric learning loss learns a disentangled representation by attracting simultaneous viewpoints of the same observations and repelling visually similar frames from temporal neighbors. The adversarial skill-transfer loss enhances re-usability of learned skill embeddings over multiple task domains. We show that the learned embedding enables training of continuous control policies to solve novel tasks that require the interpolation of previously seen skills. Our extensive evaluation with both simulation and real world data demonstrates the effectiveness of our method in learning transferable skills from unlabeled interaction videos and composing them for new tasks. Code, pretrained models and dataset are available at http://robotskills.cs.uni-freiburg.de