自律型システムは、現在の環境を理解する必要があるだけでなく、たとえばキャプチャされたカメラ フレームに基づいて、過去の状態に基づいて将来のアクションを予測できる必要があります。ただし、既存のモデルは、主に短い期間の将来のビデオ フレームの予測に焦点を当てているため、長期的な行動計画にはあまり使用できません。 Multi-Scale Hierarchical Prediction (MSPred) を提案します。これは、異なる時空間スケールで異なるレベルの粒度の将来の可能な結果を同時に予測できる新しいビデオ予測モデルです。空間的ダウンサンプリングと時間的ダウンサンプリングを組み合わせることにより、MSPred は、ビデオ フレーム予測の競争力のあるパフォーマンスを維持しながら、長い時間範囲にわたって人間のポーズや場所などの抽象的な表現を効率的に予測します。私たちの実験では、MSPred が将来のビデオ フレームとビンピッキングおよびアクション認識データセットの高レベル表現 (キーポイントやセマンティクスなど) を正確に予測し、将来のフレーム予測の一般的なアプローチよりも一貫して優れていることを示しています。さらに、MSPred でさまざまなモジュールと設計の選択肢を削除し、さまざまな空間的および時間的粒度の機能を組み合わせることで優れたパフォーマンスが得られることを実験的に検証します。私たちの実験を再現するためのコードとモデルは、https://github.com/AIS-Bonn/MSPred にあります。
Autonomous systems not only need to understand their current environment, but should also be able to predict future actions conditioned on past states, for instance based on captured camera frames. However, existing models mainly focus on forecasting future video frames for short time-horizons, hence being of limited use for long-term action planning. We propose Multi-Scale Hierarchical Prediction (MSPred), a novel video prediction model able to simultaneously forecast future possible outcomes of different levels of granularity at different spatio-temporal scales. By combining spatial and temporal downsampling, MSPred efficiently predicts abstract representations such as human poses or locations over long time horizons, while still maintaining a competitive performance for video frame prediction. In our experiments, we demonstrate that MSPred accurately predicts future video frames as well as high-level representations (e.g. keypoints or semantics) on bin-picking and action recognition datasets, while consistently outperforming popular approaches for future frame prediction. Furthermore, we ablate different modules and design choices in MSPred, experimentally validating that combining features of different spatial and temporal granularity leads to a superior performance. Code and models to reproduce our experiments can be found in https://github.com/AIS-Bonn/MSPred.