arXiv reaDer
手順ビデオでの手順計画
Procedure Planning in Instructional Videos
 このペーパーでは、自律型エージェントが料理などの日常的な設定で複雑なタスクを計画できるようにするためのステップと見なすことができる手順ビデオで、手順計画の問題を研究します。世界の現在の視覚的観察と視覚的目標を前提として、「目標を達成するためにどのような行動を取る必要があるか」という質問をします。重要な技術的課題は、構造化された計画可能な状態およびアクションスペースを非構造化ビデオから直接学ぶことです。この課題に対処するため、学習された計画可能な潜在空間における状態とアクション間の共役関係によって課される構造化された事前確率を明示的に活用するフレームワークであるデュアルダイナミクスネットワーク(DDN)を提案します。私たちは実際の教育ビデオで私たちの方法を評価します。私たちの実験は、DDNが計画可能な表現を学習することを示しています。これにより、既存の計画アプローチやニューラルネットワークポリシーと比較して、計画のパフォーマンスが向上します。
In this paper, we study the problem of procedure planning in instructional videos, which can be seen as a step towards enabling autonomous agents to plan for complex tasks in everyday settings such as cooking. Given the current visual observation of the world and a visual goal, we ask the question "What actions need to be taken in order to achieve the goal?". The key technical challenge is to learn structured and plannable state and action spaces directly from unstructured videos. We address this challenge by proposing Dual Dynamics Networks (DDN), a framework that explicitly leverages the structured priors imposed by the conjugate relationships between states and actions in a learned plannable latent space. We evaluate our method on real-world instructional videos. Our experiments show that DDN learns plannable representations that lead to better planning performance compared to existing planning approaches and neural network policies.
updated: Mon Apr 13 2020 05:49:55 GMT+0000 (UTC)
published: Tue Jul 02 2019 05:17:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト