arXiv reaDer
TwoStreamVAN: Improving Motion Modeling in Video Generation
 ビデオの生成は、現実的な時間的ダイナミクスと空間コンテンツのモデリングを必要とするため、本質的に困難なタスクです。既存の方法は、単一のジェネレーターネットワークでモーションとコンテンツ作成という本質的に異なる2つのタスクを絡ませますが、このアプローチでは、もっともらしいモーションとコンテンツを同時に生成するのに苦労します。ビデオ生成タスクでのモーションモデリングを改善するために、コンテンツ生成からモーション生成を解く2ストリームモデルを提案します。これは、2ストリーム変分攻撃ネットワーク(TwoStreamVAN)と呼ばれます。アクションラベルとノイズベクトルが与えられると、このモデルは明確で一貫性のあるモーションを作成できるため、フォトリアリスティックなビデオが生成されます。重要なアイデアは、マルチスケールモーションを徐々に生成し、対応する空間コンテンツと融合することです。私たちのモデルは、標準のWeizmann Human Action、MUG Facial Expression、VoxCelebのデータセット、および挑戦的で複雑な動きを伴う多様な人間の行動の新しいデータセットに関する既存の方法を大幅に上回ります。コードはで入手できます。
Video generation is an inherently challenging task, as it requires modeling realistic temporal dynamics as well as spatial content. Existing methods entangle the two intrinsically different tasks of motion and content creation in a single generator network, but this approach struggles to simultaneously generate plausible motion and content. To im-prove motion modeling in video generation tasks, we propose a two-stream model that disentangles motion generation from content generation, called a Two-Stream Variational Adversarial Network (TwoStreamVAN). Given an action label and a noise vector, our model is able to create clear and consistent motion, and thus yields photorealistic videos. The key idea is to progressively generate and fuse multi-scale motion with its corresponding spatial content. Our model significantly outperforms existing methods on the standard Weizmann Human Action, MUG Facial Expression, and VoxCeleb datasets, as well as our new dataset of diverse human actions with challenging and complex motion. Our code is available at
updated: Fri Jan 10 2020 00:07:12 GMT+0000 (UTC)
published: Mon Dec 03 2018 19:11:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト