arXiv reaDer
風景のアニメーション化:単一画像ビデオ合成のための分離された動きと外観の自己教師付き学習
Animating Landscape: Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis
  深い生成モデルの最近の進歩にも関わらず、単一の画像から高品質のビデオを自動生成するのは困難な作業です。本論文では、主に空と水に焦点を当てた単一の風景画像から、畳み込みニューラルネットワーク(CNN)を使用して、高解像度の長期アニメーションを作成できる方法を提案します。私たちの重要な観察結果は、自然のシーンの動き(雲の動きなど)と外観(空の時間変化する色など)のタイムスケールが異なることです。したがって、それらを個別に学習し、潜在コードを導入することで両方の予測の将来の不確実性を処理しながら、分離制御で予測します。出力フレームを直接推論する以前の方法とは異なり、CNNは空間的に滑らかな中間データを予測します。つまり、運動、ワーピングのフローフィールド、および外観、色変換マップを、自己監視学習を介して、すなわち明示的に提供されたグラウンドトゥルースなしで予測します。これらの中間データは、以前の各出力フレームではなく、各出力フレームに対して1回だけ入力画像に適用されます。この設計は、長期予測でのエラーの蓄積を軽減するために重要です。これは、以前の反復的なアプローチで不可欠な問題です。出力フレームはシネマグラフのようにループでき、潜在コードを指定して直接制御したり、視覚的な注釈を介して間接的に制御したりできます。ビデオ予測および外観操作に関する最新技術との比較を通じて、この方法の有効性を実証します。
Automatic generation of a high-quality video from a single image remains a challenging task despite the recent advances in deep generative models. This paper proposes a method that can create a high-resolution, long-term animation using convolutional neural networks (CNNs) from a single landscape image where we mainly focus on skies and waters. Our key observation is that the motion (e.g., moving clouds) and appearance (e.g., time-varying colors in the sky) in natural scenes have different time scales. We thus learn them separately and predict them with decoupled control while handling future uncertainty in both predictions by introducing latent codes. Unlike previous methods that infer output frames directly, our CNNs predict spatially-smooth intermediate data, i.e., for motion, flow fields for warping, and for appearance, color transfer maps, via self-supervised learning, i.e., without explicitly-provided ground truth. These intermediate data are applied not to each previous output frame, but to the input image only once for each output frame. This design is crucial to alleviate error accumulation in long-term predictions, which is the essential problem in previous recurrent approaches. The output frames can be looped like cinemagraph, and also be controlled directly by specifying latent codes or indirectly via visual annotations. We demonstrate the effectiveness of our method through comparisons with the state-of-the-arts on video prediction as well as appearance manipulation.
updated: Wed Oct 16 2019 07:20:58 GMT+0000 (UTC)
published: Wed Oct 16 2019 07:20:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト