このペーパーでは、ビデオ生成の新しいフレームワークであるClick to Move(C2M)を紹介します。これは、ユーザーがシーン内の主要オブジェクトの単純なオブジェクト軌道を指定するマウスクリックで合成ビデオの動きを制御できるものです。私たちのモデルは、入力として初期フレーム、それに対応するセグメンテーションマップ、およびユーザーによって提供された入力をエンコードするスパース動きベクトルを受け取ります。指定されたフレームから始まり、ユーザー入力と一致するモーションで、もっともらしいビデオシーケンスを出力します。特に、提案されたディープアーキテクチャには、シーン内のすべてのオブジェクトの動きを全体的にモデル化し、まばらなユーザーの動き情報と画像の特徴を効果的に組み合わせたグラフ畳み込みネットワーク(GCN)が組み込まれています。実験結果は、C2Mが2つの公開されているデータセットで既存のメソッドよりも優れていることを示しており、オブジェクトの相互作用のモデリングにおけるGCNフレームワークの有効性を示しています。ソースコードはhttps://github.com/PierfrancescoArdino/C2Mで公開されています。
This paper introduces Click to Move (C2M), a novel framework for video generation where the user can control the motion of the synthesized video through mouse clicks specifying simple object trajectories of the key objects in the scene. Our model receives as input an initial frame, its corresponding segmentation map and the sparse motion vectors encoding the input provided by the user. It outputs a plausible video sequence starting from the given frame and with a motion that is consistent with user input. Notably, our proposed deep architecture incorporates a Graph Convolution Network (GCN) modelling the movements of all the objects in the scene in a holistic manner and effectively combining the sparse user motion information and image features. Experimental results show that C2M outperforms existing methods on two publicly available datasets, thus demonstrating the effectiveness of our GCN framework at modelling object interactions. The source code is publicly available at https://github.com/PierfrancescoArdino/C2M.