Hierarchical Foresight: Self-Supervised Learning of Long-Horizon Tasks via Visual Subgoal Generation
  ビデオ予測モデルと計画アルゴリズムを組み合わせることで、ロボットが自己監視だけで多くの視覚ベースのタスクを実行できるようになり、見えないオブジェクトが散らかったシーンで新しい目標に到達できる可能性が示されました。ただし、長い期間のビデオ予測の複雑な不確実性と、サンプリングベースのプランニングオプティマイザーのスケーラビリティの低さにより、これらのアプローチの1つの重要な制限は、遠い目標を達成するために長い期間にわたって計画する能力です。そのために、目標画像に基づいてサブゴール画像を生成し、それらを計画に使用する、サブゴールの生成と計画のためのフレームワーク、階層的視覚予測(HVF)を提案します。サブゴール画像は、タスクを計画しやすいセグメントに分解するように直接最適化されています。その結果、メソッドが意味的に意味のある状態をサブゴールとして自然に識別することがわかります。 4つのシミュレーションされた視覚ベースの操作タスクのうち3つで、サブゴールやモデルを使用しないRLアプローチを使用しない計画に比べて、この方法によりパフォーマンスがほぼ200%向上することがわかります。さらに、私たちの実験は、私たちのアプローチが実際の乱雑な視覚シーンにまで及ぶことを示しています。プロジェクトページ:
Video prediction models combined with planning algorithms have shown promise in enabling robots to learn to perform many vision-based tasks through only self-supervision, reaching novel goals in cluttered scenes with unseen objects. However, due to the compounding uncertainty in long horizon video prediction and poor scalability of sampling-based planning optimizers, one significant limitation of these approaches is the ability to plan over long horizons to reach distant goals. To that end, we propose a framework for subgoal generation and planning, hierarchical visual foresight (HVF), which generates subgoal images conditioned on a goal image, and uses them for planning. The subgoal images are directly optimized to decompose the task into easy to plan segments, and as a result, we observe that the method naturally identifies semantically meaningful states as subgoals. Across three out of four simulated vision-based manipulation tasks, we find that our method achieves nearly a 200% performance improvement over planning without subgoals and model-free RL approaches. Further, our experiments illustrate that our approach extends to real, cluttered visual scenes. Project page:
updated: Thu Sep 12 2019 17:36:45 GMT+0000 (UTC)
published: Thu Sep 12 2019 17:36:45 GMT+0000 (UTC)
