arXiv reaDer
風景アニメーションのためのきめ細かいモーション埋め込みの学習
Learning Fine-Grained Motion Embedding for Landscape Animation
この論文では、単一の風景画像からタイムラプスビデオを生成することを目的とした風景アニメーションに焦点を当てます。モーションは、オブジェクトがビデオ内でどのように動くかを決定するため、ランドスケープアニメーションにとって非常に重要です。既存の方法は、リアルタイムのタイムラプスビデオからモーションを学習することにより、魅力的なビデオを生成することができます。ただし、現在の方法では、モーション生成が不正確になり、非現実的なビデオ結果が発生します。この問題に取り組むために、ランドスケープアニメーションのファイングレインモーション埋め込みを学習することにより、高品質でリアルなビデオを生成するFGLAというモデルを提案します。私たちのモデルは2つの部分で構成されています:(1)タイムラプスモーションをきめ細かく埋め込むモーションエンコーダ。 (2)入力画像をアニメーション化するためのリアルなモーションを生成するモーションジェネレータ。さまざまなタイムラプスビデオをトレーニングおよび評価するために、さまざまなシーンを含む最大の高解像度タイムラプスビデオデータセット、つまり、1,000万フレームを超える16,874本のビデオクリップを含むタイムラプスDを構築します。定量的および定性的な実験結果は、私たちの方法の優位性を示しています。特に、私たちの方法は、データセットの最先端の方法と比較して、LIPISで19%、FVDで5.6%の相対的な改善を達成しています。 700人の被験者を対象に実施されたユーザー調査によると、私たちのアプローチは既存の方法を視覚的に大幅に上回っています。
In this paper we focus on landscape animation, which aims to generate time-lapse videos from a single landscape image. Motion is crucial for landscape animation as it determines how objects move in videos. Existing methods are able to generate appealing videos by learning motion from real time-lapse videos. However, current methods suffer from inaccurate motion generation, which leads to unrealistic video results. To tackle this problem, we propose a model named FGLA to generate high-quality and realistic videos by learning Fine-Grained motion embedding for Landscape Animation. Our model consists of two parts: (1) a motion encoder which embeds time-lapse motion in a fine-grained way. (2) a motion generator which generates realistic motion to animate input images. To train and evaluate on diverse time-lapse videos, we build the largest high-resolution Time-lapse video dataset with Diverse scenes, namely Time-lapse-D, which includes 16,874 video clips with over 10 million frames. Quantitative and qualitative experimental results demonstrate the superiority of our method. In particular, our method achieves relative improvements by 19% on LIPIS and 5.6% on FVD compared with state-of-the-art methods on our dataset. A user study carried out with 700 human subjects shows that our approach visually outperforms existing methods by a large margin.
updated: Mon Sep 13 2021 03:20:22 GMT+0000 (UTC)
published: Mon Sep 06 2021 02:47:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト