画像から画像への変換タスクは、Generative Adversarial Networks(GAN)で広く調査されています。ただし、既存のアプローチは、主に教師なしの方法で設計されていますが、ペアになっていないデータ内のドメイン情報にはほとんど注意が払われていません。このペーパーでは、ドメイン情報を明示的な監督として扱い、ペアの画像から画像への変換フレームワーク、ドメイン監督付きGAN(DosGAN)を設計します。これは、明示的なドメイン監督の探求に向けた第一歩を踏み出します。さまざまなジェネレーターまたはドメインコードを使用してドメイン特性を表すのとは対照的に、分類ネットワークを事前にトレーニングして、画像のドメインを明示的に分類します。事前トレーニングの後、このネットワークを使用して、各画像のドメイン固有の特徴を抽出します。このような機能は、別のエンコーダー(異なるドメイン間で共有)によって抽出されたドメインに依存しない機能とともに、ターゲットドメインで画像を生成するために使用されます。複数の顔の属性の翻訳、複数のアイデンティティの翻訳、複数の季節の翻訳、条件付きのエッジツーシューズ/ハンドバッグに関する広範な実験により、本手法の有効性が実証されています。さらに、Facescrubデータセットで取得したドメイン固有の特徴抽出機能を、ドメイン監視情報とともに、CelebAデータセットの顔などの未表示のドメインに転送できます。また、CelebAの任意の2つの画像を使用して条件付き変換を実現することに成功しましたが、StarGANなどの以前のモデルではこのタスクを処理できません。
Image-to-image translation tasks have been widely investigated with Generative Adversarial Networks (GANs). However, existing approaches are mostly designed in an unsupervised manner while little attention has been paid to domain information within unpaired data. In this paper, we treat domain information as explicit supervision and design an unpaired image-to-image translation framework, Domain-supervised GAN (DosGAN), which takes the first step towards the exploration of explicit domain supervision. In contrast to representing domain characteristics using different generators or domain codes, we pre-train a classification network to explicitly classify the domain of an image. After pre-training, this network is used to extract the domain-specific features of each image. Such features, together with the domain-independent features extracted by another encoder (shared across different domains), are used to generate image in target domain. Extensive experiments on multiple facial attribute translation, multiple identity translation, multiple season translation and conditional edges-to-shoes/handbags demonstrate the effectiveness of our method. In addition, we can transfer the domain-specific feature extractor obtained on the Facescrub dataset with domain supervision information to unseen domains, such as faces in the CelebA dataset. We also succeed in achieving conditional translation with any two images in CelebA, while previous models like StarGAN cannot handle this task.