arXiv reaDer
VIP: 価値暗黙のプレトレーニングによる普遍的な視覚的報酬と表現に向けて
VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training
報酬と表現の学習は、感覚観察からロボット操作スキルの拡張セットを学習するための 2 つの長年の課題です。ドメイン内のタスク固有のロボット データの固有のコストと希少性を考えると、大規模で多様なオフラインの人間のビデオから学習することが、制御のための一般的に有用な視覚的表現を獲得するための有望な道として浮上しています。ただし、これらの人間のビデオを汎用の報酬学習にどのように使用できるかは未解決の問題です。 Value-Implicit Pre-training (VIP) を導入します。これは、目に見えないロボット タスクに対して密で滑らかな報酬関数を生成できる、自己教師ありの事前トレーニング済みの視覚的表現です。 VIP は、人間のビデオからの表現学習をオフラインの目標条件付き強化学習問題としてキャストし、アクションに依存しない自己教師付きの二重目標条件付き価値関数目標を導き出し、ラベルのない人間のビデオでの事前トレーニングを可能にします。理論的には、VIP は、時間的に滑らかな埋め込みを生成する新しい暗黙的な時間対比目的として理解でき、埋め込み距離を介して値関数を暗黙的に定義できます。これを使用して、ゴール イメージで指定されたダウンストリーム タスクの報酬を構築できます。 .大規模な Ego4D 人間のビデオでトレーニングされ、ドメイン内のタスク固有のデータを微調整することなく、VIP の凍結された表現は、シミュレートされた実際のロボット タスクの広範なセットに対して高密度の視覚的報酬を提供し、多様な報酬ベースのビジュアルを可能にします。制御方法と以前のすべての事前訓練された表現を大幅に上回っています。特に、VIP は、わずか 20 の軌跡を持つ実世界の一連のロボット タスクで、単純な数ショットのオフライン RL を有効にできます。
Reward and representation learning are two long-standing challenges for learning an expanding set of robot manipulation skills from sensory observations. Given the inherent cost and scarcity of in-domain, task-specific robot data, learning from large, diverse, offline human videos has emerged as a promising path towards acquiring a generally useful visual representation for control; however, how these human videos can be used for general-purpose reward learning remains an open question. We introduce Value-Implicit Pre-training (VIP), a self-supervised pre-trained visual representation capable of generating dense and smooth reward functions for unseen robotic tasks. VIP casts representation learning from human videos as an offline goal-conditioned reinforcement learning problem and derives a self-supervised dual goal-conditioned value-function objective that does not depend on actions, enabling pre-training on unlabeled human videos. Theoretically, VIP can be understood as a novel implicit time contrastive objective that generates a temporally smooth embedding, enabling the value function to be implicitly defined via the embedding distance, which can then be used to construct the reward for any goal-image specified downstream task. Trained on large-scale Ego4D human videos and without any fine-tuning on in-domain, task-specific data, VIP's frozen representation can provide dense visual reward for an extensive set of simulated and real-robot tasks, enabling diverse reward-based visual control methods and significantly outperforming all prior pre-trained representations. Notably, VIP can enable simple, few-shot offline RL on a suite of real-world robot tasks with as few as 20 trajectories.
updated: Tue Mar 07 2023 02:29:59 GMT+0000 (UTC)
published: Fri Sep 30 2022 18:14:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト