インテリジェントシステムの特徴は、予想される結果に基づいてアクションを決定できることです。ビデオ予測システムは、未来が視覚的にどのように展開するかを予測するソリューションとして実証されているため、観測されたフレームの履歴に基づいて将来のフレームを予測できる多くのモデルが提案されています〜ただし、アクションの選択を導く際のさまざまなビデオ予測モデルの適合性を決定するための包括的な方法はまだ開発されていません。現在のメトリックは、フレーム品質の人間の認識に基づいてビデオ予測モデルを評価します。対照的に、これらのシステムを使用してアクションを導く場合、必然的に、ロボットが実行するアクションを予測フレームにエンコードする必要があると主張します。この論文では、この議論に基づいてさまざまなビデオ予測モデルを比較するための新しいメトリックを提案しています。より具体的には、アクション推論システムを提案し、予測フレームからロボットのアクションをどれだけうまく推論できるかに基づいて、さまざまなモデルを定量的にランク付けします。広範な実験により、知覚スコアが高いモデルは、提案されたアクション推論テストでパフォーマンスが低下する可能性があるため、ロボット計画システムで使用するのに適したオプションではない可能性があります。
A defining characteristic of intelligent systems is the ability to make action decisions based on the anticipated outcomes. Video prediction systems have been demonstrated as a solution for predicting how the future will unfold visually, and thus, many models have been proposed that are capable of predicting future frames based on a history of observed frames~(and sometimes robot actions). However, a comprehensive method for determining the fitness of different video prediction models at guiding the selection of actions is yet to be developed. Current metrics assess video prediction models based on human perception of frame quality. In contrast, we argue that if these systems are to be used to guide action, necessarily, the actions the robot performs should be encoded in the predicted frames. In this paper, we are proposing a new metric to compare different video prediction models based on this argument. More specifically, we propose an action inference system and quantitatively rank different models based on how well we can infer the robot actions from the predicted frames. Our extensive experiments show that models with high perceptual scores can perform poorly in the proposed action inference tests and thus, may not be suitable options to be used in robot planning systems.