この作業では、キーポイントに基づく画像生成のタスクのために、新しいサイクルインサイクル生成敵対的ネットワーク(C ^ 2GAN)を提案します。提案されたC ^ 2GANは、インタラクティブな方法でキーポイントと画像データの共同利用を調査するクロスモーダルフレームワークです。 C ^ 2GANには、キーポイント指向のジェネレーターと画像指向のジェネレーターの2種類のジェネレーターが含まれています。どちらもエンドツーエンドの学習可能な方法で相互に接続されており、3つのサイクルサブネットワーク、つまり1つの画像生成サイクルと2つのキーポイント生成サイクルを明示的に形成しています。各サイクルは、入力ドメインの再構築を目的とするだけでなく、別のサイクルの生成に関与する有用な出力も生成します。そうすることで、サイクルは暗黙的に相互に制約します。これにより、2つの異なるモダリティからの補足情報が提供され、サイクル全体の監視が強化され、ネットワーク全体のより堅牢な最適化が促進されます。 2つの公的に利用可能なデータセット、すなわちRadboud FacesとMarket-1501に関する広範な実験結果は、最新のモデルと比較して、より現実的な画像を生成するために私たちのアプローチが効果的であることを示しています。
In this work, we propose a novel Cycle In Cycle Generative Adversarial Network (C^2GAN) for the task of keypoint-guided image generation. The proposed C^2GAN is a cross-modal framework exploring a joint exploitation of the keypoint and the image data in an interactive manner. C^2GAN contains two different types of generators, i.e., keypoint-oriented generator and image-oriented generator. Both of them are mutually connected in an end-to-end learnable fashion and explicitly form three cycled sub-networks, i.e., one image generation cycle and two keypoint generation cycles. Each cycle not only aims at reconstructing the input domain, and also produces useful output involving in the generation of another cycle. By so doing, the cycles constrain each other implicitly, which provides complementary information from the two different modalities and brings extra supervision across cycles, thus facilitating more robust optimization of the whole network. Extensive experimental results on two publicly available datasets, i.e., Radboud Faces and Market-1501, demonstrate that our approach is effective to generate more photo-realistic images compared with state-of-the-art models.