オブジェクト中心のビデオ予測のタスクのための新しいフレームワークを提案します。つまり、ビデオシーケンスの構成構造を抽出し、視覚的観察からオブジェクトのダイナミクスと相互作用をモデル化して、将来のオブジェクトの状態を予測します。その後、後続のビデオ フレームを生成します。意味のある時空間オブジェクト表現を学習し、オブジェクトの状態を正確に予測することを目標に、2 つの新しいオブジェクト中心のビデオ予測 (OCVP) 変換モジュールを提案します。これにより、時間ダイナミクスとオブジェクトの相互作用の処理が分離され、予測パフォーマンスが向上します。私たちの実験では、OCVP 予測子を利用したオブジェクト中心の予測フレームワークが、一貫した正確なオブジェクト表現を維持しながら、2 つの異なるデータセットでオブジェクトに依存しないビデオ予測モデルよりも優れていることを示しています。
We propose a novel framework for the task of object-centric video prediction, i.e., extracting the compositional structure of a video sequence, as well as modeling objects dynamics and interactions from visual observations in order to predict the future object states, from which we can then generate subsequent video frames. With the goal of learning meaningful spatio-temporal object representations and accurately forecasting object states, we propose two novel object-centric video predictor (OCVP) transformer modules, which decouple the processing of temporal dynamics and object interactions, thus presenting an improved prediction performance. In our experiments, we show how our object-centric prediction framework utilizing our OCVP predictors outperforms object-agnostic video prediction models on two different datasets, while maintaining consistent and accurate object representations.