arXiv reaDer
MotionVideoGAN: 画像ペアから学習したモーション空間に基づく新しいビデオ ジェネレーター
MotionVideoGAN: A Novel Video Generator Based on the Motion Space Learned from Image Pairs
ビデオ生成は、強力なイメージ ジェネレーターによって提供される高品質のレンダリングの恩恵を受けて、急速な進歩を遂げました。ビデオ合成タスクは、同じ内容を共有するが動きが異なる一連の画像を生成することと見なします。ただし、事前にトレーニングされた画像ジェネレーターに基づく以前のビデオ合成フレームワークのほとんどは、コンテンツとモーションの生成を別々に処理するため、非現実的なビデオが生成されます。したがって、ビデオ生成のためのコンテンツの一貫性と高速な収束を達成することを目的として、モーション空間を構築するための新しいフレームワークを設計します。 MotionVideoGAN は、事前トレーニング済みの画像ペア ジェネレーターによって学習されたモーション スペースに基づいてビデオを合成する新しいビデオ ジェネレーターです。まず、MotionStyleGAN という名前の画像ペア生成器を提案して、同じ内容を共有し、さまざまなモーションを生成する画像ペアを生成します。次に、モーション コードを取得して、生成された画像ペアの一方の画像を編集し、もう一方の画像を変更しません。モーション コードは、モーション スペース内で画像を編集するのに役立ちます。これは、編集された画像が、画像ペア内の変更されていない他の画像と同じ内容を共有するためです。最後に、潜在コード ジェネレーターを導入して、ビデオ生成用のモーション コードを使用して潜在コード シーケンスを生成します。私たちのアプローチは、無条件のビデオ生成評価にこれまで使用された中で最も複雑なビデオ データセットである UCF101 で最先端のパフォーマンスを実現します。
Video generation has achieved rapid progress benefiting from high-quality renderings provided by powerful image generators. We regard the video synthesis task as generating a sequence of images sharing the same contents but varying in motions. However, most previous video synthesis frameworks based on pre-trained image generators treat content and motion generation separately, leading to unrealistic generated videos. Therefore, we design a novel framework to build the motion space, aiming to achieve content consistency and fast convergence for video generation. We present MotionVideoGAN, a novel video generator synthesizing videos based on the motion space learned by pre-trained image pair generators. Firstly, we propose an image pair generator named MotionStyleGAN to generate image pairs sharing the same contents and producing various motions. Then we manage to acquire motion codes to edit one image in the generated image pairs and keep the other unchanged. The motion codes help us edit images within the motion space since the edited image shares the same contents with the other unchanged one in image pairs. Finally, we introduce a latent code generator to produce latent code sequences using motion codes for video generation. Our approach achieves state-of-the-art performance on the most complex video dataset ever used for unconditional video generation evaluation, UCF101.
updated: Mon Mar 06 2023 05:52:13 GMT+0000 (UTC)
published: Mon Mar 06 2023 05:52:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト