arXiv reaDer
コンテキストモデリングとモデルベースのポリシー学習による教育ビデオの手順計画
Procedure Planning in Instructional Videos via Contextual Modeling and Model-based Policy Learning
人間の行動を観察して新しいスキルを学ぶことは、AIの本質的な能力です。この作業では、実際のビデオで目標指向のアクションを計画するためのモデルの学習に焦点を当てて、人間の意思決定プロセスを研究するために教育ビデオを活用します。従来の行動認識とは対照的に、目標指向の行動は、行動の潜在的な結果の因果関係の知識を必要とする結果の期待に基づいています。したがって、環境構造を目標と統合することは、このタスクを解決するために重要です。以前の作品は、単一の世界モデルがさまざまなタスクを区別できず、あいまいな潜在空間をもたらすことを学びました。手順が進むにつれて将来の目標のグローバル情報が急速に低下するため、それを介した計画は、望ましい結果を徐々に無視します。手順計画の新しい定式化でこれらの制限に対処し、ベイズ推定とモデルベースの模倣学習を通じて人間の行動をモデル化するための新しいアルゴリズムを提案します。実際の教育ビデオで実施された実験は、私たちの方法が示された目標を達成する上で最先端のパフォーマンスを達成できることを示しています。さらに、学習されたコンテキスト情報は、潜在空間で計画するための興味深い機能を提供します。
Learning new skills by observing humans' behaviors is an essential capability of AI. In this work, we leverage instructional videos to study humans' decision-making processes, focusing on learning a model to plan goal-directed actions in real-life videos. In contrast to conventional action recognition, goal-directed actions are based on expectations of their outcomes requiring causal knowledge of potential consequences of actions. Thus, integrating the environment structure with goals is critical for solving this task. Previous works learn a single world model will fail to distinguish various tasks, resulting in an ambiguous latent space; planning through it will gradually neglect the desired outcomes since the global information of the future goal degrades quickly as the procedure evolves. We address these limitations with a new formulation of procedure planning and propose novel algorithms to model human behaviors through Bayesian Inference and model-based Imitation Learning. Experiments conducted on real-world instructional videos show that our method can achieve state-of-the-art performance in reaching the indicated goals. Furthermore, the learned contextual information presents interesting features for planning in a latent space.
updated: Fri Oct 08 2021 18:27:02 GMT+0000 (UTC)
published: Tue Oct 05 2021 01:06:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト