arXiv reaDer
TiVGAN:ステップバイステップの進化的ジェネレーターによるテキストからイメージへのビデオ生成
TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator
テクノロジーの進歩により、目的のビジュアルマルチメディアを作成できる方法が開発されました。特に、深層学習を使用した画像生成は、さまざまな分野にわたって広く研究されています。それとは対照的に、特に条件付き入力でのビデオ生成は、依然として挑戦的で探索の余地の少ない領域です。このギャップを狭めるために、モデルをトレーニングして、特定のテキスト説明に対応するビデオを作成することを目指しています。フレームごとに進化し、最終的にはフルレングスのビデオを生成する新しいトレーニングフレームワーク、テキストからイメージへのビデオ生成敵対的ネットワーク(TiVGAN)を提案します。最初のフェーズでは、テキストと画像の関係を学びながら、高品質の単一のビデオフレームを作成することに焦点を当てます。ステップが進むにつれて、モデルは連続するより多くのフレームで徐々にトレーニングされます。この段階的な学習プロセスは、トレーニングを安定させ、条件付きテキストの説明に基づいた高解像度ビデオの作成を可能にします。さまざまなデータセットの定性的および定量的な実験結果は、提案された方法の有効性を示しています。
Advances in technology have led to the development of methods that can create desired visual multimedia. In particular, image generation using deep learning has been extensively studied across diverse fields. In comparison, video generation, especially on conditional inputs, remains a challenging and less explored area. To narrow this gap, we aim to train our model to produce a video corresponding to a given text description. We propose a novel training framework, Text-to-Image-to-Video Generative Adversarial Network (TiVGAN), which evolves frame-by-frame and finally produces a full-length video. In the first phase, we focus on creating a high-quality single video frame while learning the relationship between the text and an image. As the steps proceed, our model is trained gradually on more number of consecutive frames.This step-by-step learning process helps stabilize the training and enables the creation of high-resolution video based on conditional text descriptions. Qualitative and quantitative experimental results on various datasets demonstrate the effectiveness of the proposed method.
updated: Mon Jun 28 2021 00:25:23 GMT+0000 (UTC)
published: Fri Sep 04 2020 06:33:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト