arXiv reaDer
GANベースの画像編集のためのNeuralODEを介した潜在的変換
Latent Transformations via NeuralODEs for GAN-based Image Editing
忠実度の高いセマンティック画像編集の最近の進歩は、StyleGANなどの最先端の生成モデルのおそらく解きほぐされた潜在空間に大きく依存しています。具体的には、最近の研究は、潜在的な方向に沿った線形シフトを介して、顔画像の属性の適切な制御性を達成することが可能であることを示しています。最近のいくつかの方法は、最先端のGANが本質的に線形分離可能な属性分布と意味ベクトル算術特性を使用して潜在空間を学習すると暗黙的に想定して、そのような方向の発見に取り組んでいます。私たちの仕事では、トレーニング可能なニューラルODEのフローとして実現される非線形潜在コード操作が、より複雑な非テクスチャの変動要因を持つ多くの実用的な非顔画像ドメインに有益であることを示しています。特に、既知の属性を持つ多数のデータセットを調査し、特定の属性操作を線形シフトのみで取得するのが難しいことを示しています。
Recent advances in high-fidelity semantic image editing heavily rely on the presumably disentangled latent spaces of the state-of-the-art generative models, such as StyleGAN. Specifically, recent works show that it is possible to achieve decent controllability of attributes in face images via linear shifts along with latent directions. Several recent methods address the discovery of such directions, implicitly assuming that the state-of-the-art GANs learn the latent spaces with inherently linearly separable attribute distributions and semantic vector arithmetic properties. In our work, we show that nonlinear latent code manipulations realized as flows of a trainable Neural ODE are beneficial for many practical non-face image domains with more complex non-textured factors of variation. In particular, we investigate a large number of datasets with known attributes and demonstrate that certain attribute manipulations are challenging to obtain with linear shifts only.
updated: Mon Nov 29 2021 18:59:54 GMT+0000 (UTC)
published: Mon Nov 29 2021 18:59:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト