arXiv reaDer
画像生成のための連続条件付き生成的敵対的ネットワーク:新しい損失とラベル入力メカニズム
Continuous Conditional Generative Adversarial Networks for Image Generation: Novel Losses and Label Input Mechanisms
この作業は、連続スカラー条件(回帰ラベルと呼ばれる)を条件とする画像生成の最初の生成モデルである、連続条件付き生成敵対的ネットワーク(CcGAN)を提案します。既存の条件付きGAN(cGAN)は、主にカテゴリ条件(クラスラベルなど)用に設計されています。回帰ラベルの条件付けは数学的に異なり、2つの基本的な問題が発生します。(P1)一部の回帰ラベルの実際の画像は非常に少ない(ゼロでさえある)ため、cGAN損失の既存の経験的バージョン(別名経験的cGAN損失)を最小化すると実際には失敗することがよくあります;(P2)回帰ラベルはスカラーであり、無限に多いため、従来のラベル入力方法は適用できません。提案されたCcGANは、(S1)既存の経験的cGAN損失を継続的なシナリオに適切になるように再定式化することにより、上記の問題をそれぞれ解決します。 (S2)ナイーブラベル入力(NLI)メソッドと改良されたラベル入力(ILI)メソッドを提案して、回帰ラベルをジェネレーターとディスクリミネーターに組み込みます。 (S1)の再定式化は、それぞれハードビシナルディスクリミネーター損失(HVDL)およびソフトビシナルディスクリミネーター損失(SVDL)と呼ばれる2つの新しい経験的ディスクリミネーター損失、および新しい経験的ジェネレーター損失につながります。 HVDLとSVDLでトレーニングされた弁別器の誤差範囲は、この作業では穏やかな仮定の下で導き出されます。この継続的なシナリオでは、2つの新しいベンチマークデータセット(RC-49とCell-200)と新しい評価指標(SlidingFréchetInceptionDistance)も提案されています。 Circular 2-D Gaussians、RC-49、UTKFace、Cell-200、およびSteering Angleデータセットでの実験は、CcGANが特定の回帰ラベルを条件として画像分布から多様で高品質のサンプルを生成できることを示しています。さらに、これらの実験では、CcGANは視覚的にも定量的にもcGANを大幅に上回っています。
This work proposes the continuous conditional generative adversarial network (CcGAN), the first generative model for image generation conditional on continuous, scalar conditions (termed regression labels). Existing conditional GANs (cGANs) are mainly designed for categorical conditions (eg, class labels); conditioning on regression labels is mathematically distinct and raises two fundamental problems:(P1) Since there may be very few (even zero) real images for some regression labels, minimizing existing empirical versions of cGAN losses (aka empirical cGAN losses) often fails in practice;(P2) Since regression labels are scalar and infinitely many, conventional label input methods are not applicable. The proposed CcGAN solves the above problems, respectively, by (S1) reformulating existing empirical cGAN losses to be appropriate for the continuous scenario; and (S2) proposing a naive label input (NLI) method and an improved label input (ILI) method to incorporate regression labels into the generator and the discriminator. The reformulation in (S1) leads to two novel empirical discriminator losses, termed the hard vicinal discriminator loss (HVDL) and the soft vicinal discriminator loss (SVDL) respectively, and a novel empirical generator loss. The error bounds of a discriminator trained with HVDL and SVDL are derived under mild assumptions in this work. Two new benchmark datasets (RC-49 and Cell-200) and a novel evaluation metric (Sliding Fréchet Inception Distance) are also proposed for this continuous scenario. Our experiments on the Circular 2-D Gaussians, RC-49, UTKFace, Cell-200, and Steering Angle datasets show that CcGAN is able to generate diverse, high-quality samples from the image distribution conditional on a given regression label. Moreover, in these experiments, CcGAN substantially outperforms cGAN both visually and quantitatively.
updated: Sun May 09 2021 06:30:47 GMT+0000 (UTC)
published: Sun Nov 15 2020 07:29:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト