Few-shot Video-to-Video Synthesis
  ビデオからビデオへの合成(vid2vid)は、人間のポーズやセグメンテーションマスクのビデオなどの入力セマンティックビデオを、写実的な出力ビデオに変換することを目的としています。 vid2vidの最新技術は大幅に進歩しましたが、既存のアプローチには2つの大きな制限があります。まず、データを大量に消費します。トレーニングには、対象となる人間の被写体またはシーンの多数の画像が必要です。第二に、学習したモデルには一般化機能が制限されています。ポーズから人間へのvid2vidモデルは、トレーニングセット内の1人のポーズのみを合成できます。トレーニングセットに含まれていない他の人間には一般化されません。制限に対処するために、テスト時にターゲットのいくつかのサンプル画像を活用することにより、これまで見えなかった被写体またはシーンのビデオを合成することを学習する、数ショットのvid2vidフレームワークを提案します。このモデルは、アテンションメカニズムを利用した新しいネットワークウェイト生成モジュールを介して、この少数ショットの一般化機能を実現します。私たちは、人間のダンスビデオ、おしゃべりヘッドビデオ、ストリートシーンビデオなど、いくつかの大規模なビデオデータセットを使用して、強力なベースラインと比較した広範な実験的検証を行っています。実験結果は、既存のvid2vidアプローチの2つの制限に対処する際の提案されたフレームワークの有効性を検証します。
Video-to-video synthesis (vid2vid) aims at converting an input semantic video, such as videos of human poses or segmentation masks, to an output photorealistic video. While the state-of-the-art of vid2vid has advanced significantly, existing approaches share two major limitations. First, they are data-hungry. Numerous images of a target human subject or a scene are required for training. Second, a learned model has limited generalization capability. A pose-to-human vid2vid model can only synthesize poses of the single person in the training set. It does not generalize to other humans that are not in the training set. To address the limitations, we propose a few-shot vid2vid framework, which learns to synthesize videos of previously unseen subjects or scenes by leveraging few example images of the target at test time. Our model achieves this few-shot generalization capability via a novel network weight generation module utilizing an attention mechanism. We conduct extensive experimental validations with comparisons to strong baselines using several large-scale video datasets including human-dancing videos, talking-head videos, and street-scene videos. The experimental results verify the effectiveness of the proposed framework in addressing the two limitations of existing vid2vid approaches.
