arXiv reaDer
時間モデリングに潜在パス構築を採用したテキストからのビデオ生成
Video Generation from Text Employing Latent Path Construction for Temporal Modeling
ビデオ生成は、機械学習とコンピュータービジョンの研究分野で最も困難なタスクの1つです。この論文では、ビデオ生成の条件付き形式であるテキストからビデオへの生成の問題に取り組みます。人間は自然言語の文章を聞いたり読んだりすることができ、記述されていることを想像または視覚化することができます。したがって、自然言語の文章からのビデオ生成は、人工知能に重要な影響を与えると私たちは信じています。ビデオ生成は、コンピュータビジョンの比較的新しい研究分野であり、解決にはほど遠いものです。最近の作品の大部分は、オブジェクト、シーン、感情の種類が非常に限られている合成データセットまたは実際のデータセットを扱っています。私たちの知る限り、これは、Actor and Action Dataset(A2D)やUCF101などのより現実的なビデオデータセットでのビデオ生成に対するテキスト(自由形式の文)の最初の作業です。最初と最後のフレームの潜在的表現を回帰し、コンテキストアウェア補間法を使用して中間フレームの潜在的表現を構築することにより、ビデオ生成の複雑な問題に取り組みます。スタッキング「upPooling」ブロックを提案して、各潜在表現からRGBフレームを順次生成し、解像度を段階的に上げます。さらに、提案されたDiscriminatorは、単一および複数のフレームに基づいてビデオをエンコードします。定量的および定性的な結果を提供して、議論をサポートし、リカレントニューラルネットワーク(RNN)やデコンボリューション(畳み込み転置として知られる)ベースのビデオ生成方法などのよく知られたベースラインに対する方法の優位性を示します。
Video generation is one of the most challenging tasks in Machine Learning and Computer Vision fields of study. In this paper, we tackle the text to video generation problem, which is a conditional form of video generation. Humans can listen/read natural language sentences, and can imagine or visualize what is being described; therefore, we believe that video generation from natural language sentences will have an important impact on Artificial Intelligence. Video generation is relatively a new field of study in Computer Vision, which is far from being solved. The majority of recent works deal with synthetic datasets or real datasets with very limited types of objects, scenes, and emotions. To the best of our knowledge, this is the very first work on the text (free-form sentences) to video generation on more realistic video datasets like Actor and Action Dataset (A2D) or UCF101. We tackle the complicated problem of video generation by regressing the latent representations of the first and last frames and employing a context-aware interpolation method to build the latent representations of in-between frames. We propose a stacking ``upPooling'' block to sequentially generate RGB frames out of each latent representation and progressively increase the resolution. Moreover, our proposed Discriminator encodes videos based on single and multiple frames. We provide quantitative and qualitative results to support our arguments and show the superiority of our method over well-known baselines like Recurrent Neural Network (RNN) and Deconvolution (as known as Convolutional Transpose) based video generation methods.
updated: Thu Jul 29 2021 06:28:20 GMT+0000 (UTC)
published: Thu Jul 29 2021 06:28:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト