視覚的な先見性は、エージェントに未来への窓を提供します。それは、イベントが発生する前にイベントを予測し、戦略的な行動を計画するために使用できます。制約のある設定でのビデオ予測では印象的な結果が得られましたが、これらのモデルは、なじみのない実世界のオブジェクトに直面すると一般化できません。この論文では、高速適応を介して一般化問題に取り組みます。ここでは、予測されたモデルをトレーニングして、新しいオブジェクトの観察された視覚的ダイナミクスに迅速に適応します。私たちの方法である経験埋め込み視覚予測(EVF)は、新しいオブジェクトの観測された軌跡をベクトル埋め込みにエンコードする高速適応モジュールと、この埋め込みを条件として物理的にもっともらしい予測を生成する視覚予測モデルを共同で学習します。評価のために、ビデオ予測のベースラインと本方法を比較し、2つの実際の制御タスクでその有用性をベンチマークします。私たちの方法は、新しい視覚的なダイナミクスにすばやく適応でき、新規オブジェクトを操作するときにベースラインよりも低いエラーを達成できることを示しています。
Visual foresight gives an agent a window into the future, which it can use to anticipate events before they happen and plan strategic behavior. Although impressive results have been achieved on video prediction in constrained settings, these models fail to generalize when confronted with unfamiliar real-world objects. In this paper, we tackle the generalization problem via fast adaptation, where we train a prediction model to quickly adapt to the observed visual dynamics of a novel object. Our method, Experience-embedded Visual Foresight (EVF), jointly learns a fast adaptation module, which encodes observed trajectories of the new object into a vector embedding, and a visual prediction model, which conditions on this embedding to generate physically plausible predictions. For evaluation, we compare our method against baselines on video prediction and benchmark its utility on two real-world control tasks. We show that our method is able to quickly adapt to new visual dynamics and achieves lower error than the baselines when manipulating novel objects.