単一の画像とアクションクラスを条件としたディープビデオ予測モデルを提案します。将来のフレームを生成するには、まず移動するオブジェクトのキーポイントを検出し、キーポイントのシーケンスとして将来の動きを予測します。入力画像は、予測されたキーポイントシーケンスに従って変換され、将来のフレームを構成します。キーポイントの検出はアルゴリズムの中心であり、私たちの方法は教師なしの方法で任意のオブジェクトのキーポイントを検出するように訓練されています。さらに、元のビデオで検出されたキーポイントは、オブジェクトの動きを学習するための擬似ラベルとして使用されます。実験結果は、ビデオのキーポイントにラベルを付けるコストなしで、この方法がさまざまなデータセットに正常に適用されることを示しています。検出されたキーポイントは、人間が注釈を付けたラベルに似ており、予測結果は以前の方法と比較してより現実的です。
We propose a deep video prediction model conditioned on a single image and an action class. To generate future frames, we first detect keypoints of a moving object and predict future motion as a sequence of keypoints. The input image is then translated following the predicted keypoints sequence to compose future frames. Detecting the keypoints is central to our algorithm, and our method is trained to detect the keypoints of arbitrary objects in an unsupervised manner. Moreover, the detected keypoints of the original videos are used as pseudo-labels to learn the motion of objects. Experimental results show that our method is successfully applied to various datasets without the cost of labeling keypoints in videos. The detected keypoints are similar to human-annotated labels, and prediction results are more realistic compared to the previous methods.