arXiv reaDer
Learning to Take Directions One Step at a Time
単一の画像を与えられたビデオシーケンスを生成する方法を提示します。画像内のアイテムは、さまざまな方法でアニメーション化できるため、制御信号としてモーションストロークのシーケンスを導入します。そのような制御信号は、例えばバウンディングボックストラッキングを介して、他のビデオから自動的に転送することができます。各モーションストロークは、入力画像内の動くオブジェクトへの方向を提供し、そのような方向のシーケンスに従ってアニメーションを生成するようにネットワークをトレーニングすることを目的としています。このタスクに対処するために、過去、未来、現在の状態を明示的に分離することにより、簡単かつ効果的にトレーニングできる新しいリカレントアーキテクチャを設計します。実験で示すように、提案されたアーキテクチャは、単一の画像とモーションストロークのシーケンスから任意の数のフレームを生成できます。私たちのアーキテクチャの主要なコンポーネントは、過去との一貫性を確保するための自動エンコードの制約と、画像がリアルに見え、時間的にスムーズであることを保証するための生成的敵対スキームです。 MNIST、KTH、Human3.6M、Push、Weizmannデータセットに対するアプローチの有効性を示します。
We present a method to generate a video sequence given a single image. Because items in an image can be animated in arbitrarily many different ways, we introduce as control signal a sequence of motion strokes. Such control signal can be automatically transferred from other videos, e.g., via bounding box tracking. Each motion stroke provides the direction to the moving object in the input image and we aim to train a network to generate an animation following a sequence of such directions. To address this task we design a novel recurrent architecture, which can be trained easily and effectively thanks to an explicit separation of past, future and current states. As we demonstrate in the experiments, our proposed architecture is capable of generating an arbitrary number of frames from a single image and a sequence of motion strokes. Key components of our architecture are an autoencoding constraint to ensure consistency with the past and a generative adversarial scheme to ensure that images look realistic and are temporally smooth. We demonstrate the effectiveness of our approach on the MNIST, KTH, Human3.6M, Push and Weizmann datasets.
updated: Fri Aug 14 2020 06:39:39 GMT+0000 (UTC)
published: Wed Dec 05 2018 09:42:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト