トレーニング用の大規模なデータセットが与えられると、敵対的生成ネットワーク (GAN) は画像合成タスクで顕著なパフォーマンスを達成できます。ただし、過学習が頻繁に発生し、記憶やトレーニングの発散につながるため、非常に低いデータ体制で GAN をトレーニングすることは依然として課題です。この研究では、単一のトレーニング画像または単一のビデオクリップから新しいシーン構成を生成できる無条件生成モデルである SIV-GAN を紹介します。我々は、内部コンテンツとシーン レイアウトのリアリズムを互いに個別に判断するように設計されたコンテンツ ブランチとレイアウト ブランチを備えた 2 つのブランチの識別器アーキテクチャを提案します。このディスクリミネーターの設計により、元のサンプルのコンテキストを維持しながら、さまざまなコンテンツとレイアウトを含む、視覚的にもっともらしいシーンの新しい構成を合成できます。以前の単一画像 GAN と比較して、私たちのモデルは単一画像設定に制限されず、より多様で高品質の画像を生成します。さらに、1 つのビデオの数フレームから学習するという新しい挑戦的なタスクを導入します。このトレーニング設定では、トレーニング画像は互いに非常に類似しているため、以前の GAN モデルでは高品質と多様性の両方の合成を達成することが困難になっています。
Given a large dataset for training, generative adversarial networks (GANs) can achieve remarkable performance for the image synthesis task. However, training GANs in extremely low data regimes remains a challenge, as overfitting often occurs, leading to memorization or training divergence. In this work, we introduce SIV-GAN, an unconditional generative model that can generate new scene compositions from a single training image or a single video clip. We propose a two-branch discriminator architecture, with content and layout branches designed to judge internal content and scene layout realism separately from each other. This discriminator design enables synthesis of visually plausible, novel compositions of a scene, with varying content and layout, while preserving the context of the original sample. Compared to previous single image GANs, our model generates more diverse, higher quality images, while not being restricted to a single image setting. We further introduce a new challenging task of learning from a few frames of a single video. In this training setup the training images are highly similar to each other, which makes it difficult for prior GAN models to achieve a synthesis of both high quality and diversity.