目標ベースの模倣学習に取り組みます。目標は、第三者のビデオデモから象徴的な目標を出力することです。これにより、ロボットは実行を計画し、まったく異なる環境で同じ目標を再現できます。重要な課題は、セマンティックアクションのレベルでビデオデモンストレーションの目標があいまいになることです。人間のデモンストレーターは、デモンストレーションで特定のサブゴールを意図せずに達成する可能性があります。私たちの主な貢献は、ビデオデモでデモンストレーターの真の意図を明確にするために、タスクとモーションプランニングを組み合わせたモーション推論フレームワークを提案することです。これにより、以前のアクションベースのアプローチでは明確になれない目標をしっかりと認識することができます。モックアップキッチン環境で96のビデオデモのデータセットを収集することにより、アプローチを評価します。私たちの運動推論は、デモンストレーターの実際の目標を認識する上で重要な役割を果たし、成功率を20%以上改善することを示しています。さらに、ビデオデモから自動的に推測された目標を使用することにより、ロボットが実際のキッチン環境で同じタスクを再現できることを示します。
We address goal-based imitation learning, where the aim is to output the symbolic goal from a third-person video demonstration. This enables the robot to plan for execution and reproduce the same goal in a completely different environment. The key challenge is that the goal of a video demonstration is often ambiguous at the level of semantic actions. The human demonstrators might unintentionally achieve certain subgoals in the demonstrations with their actions. Our main contribution is to propose a motion reasoning framework that combines task and motion planning to disambiguate the true intention of the demonstrator in the video demonstration. This allows us to robustly recognize the goals that cannot be disambiguated by previous action-based approaches. We evaluate our approach by collecting a dataset of 96 video demonstrations in a mockup kitchen environment. We show that our motion reasoning plays an important role in recognizing the actual goal of the demonstrator and improves the success rate by over 20%. We further show that by using the automatically inferred goal from the video demonstration, our robot is able to reproduce the same task in a real kitchen environment.