arXiv reaDer
制御可能な補間正則化による解きほぐされた凸状表現の促進
Encouraging Disentangled and Convex Representation with Controllable Interpolation Regularization
制御可能な解きほぐされた表現学習(C-Dis-RL)に焦点を当てます。ここでは、ユーザーが解きほぐされた潜在空間のパーティションを制御して、ダウンストリームタスクのデータセット属性(概念)を因数分解できます。 2つの一般的な問題は、現在の方法では未踏のままです。(1)包括的な解きほぐしの制約がなく、特に潜在ドメインと観測ドメインにわたる異なる属性間の相互情報量の最小化が欠けています。 (2)凸性の制約がありません。これは、ダウンストリームタスクの特定の属性を有意義に操作するために重要です。包括的なC-Dis-RLと凸性の両方を同時に促進するために、シンプルでありながら効率的な方法を提案します。制御可能な補間正則化(CIR)は、解きほぐしと凸性が互いに役立つ正のループを作成します。具体的には、トレーニング中に潜在空間で制御された補間を実行し、エンコーダーを再利用して「完全な解きほぐし」の正則化を形成します。その場合、(a)解きほぐしの損失は、潜在的な理解可能な分布を暗黙的に拡大して、凸面を促進します。 (b)凸面は、堅牢で正確な解きほぐしを改善することができます。 CIRは一般的なモジュールであり、CIRをELEGANT、I2I-Dis、GZS-Netの3つの異なるアルゴリズムとマージして、互換性と有効性を示します。定性的および定量的実験は、CIRによるC-Dis-RLおよび潜在的凸性の改善を示しています。これにより、ダウンストリームタスク(制御可能な画像合成、クロスモダリティ画像変換、ゼロショット合成)がさらに改善されます。
We focus on controllable disentangled representation learning (C-Dis-RL), where users can control the partition of the disentangled latent space to factorize dataset attributes (concepts) for downstream tasks. Two general problems remain under-explored in current methods: (1) They lack comprehensive disentanglement constraints, especially missing the minimization of mutual information between different attributes across latent and observation domains. (2) They lack convexity constraints, which is important for meaningfully manipulating specific attributes for downstream tasks. To encourage both comprehensive C-Dis-RL and convexity simultaneously, we propose a simple yet efficient method: Controllable Interpolation Regularization (CIR), which creates a positive loop where disentanglement and convexity can help each other. Specifically, we conduct controlled interpolation in latent space during training, and we reuse the encoder to help form a 'perfect disentanglement' regularization. In that case, (a) disentanglement loss implicitly enlarges the potential understandable distribution to encourage convexity; (b) convexity can in turn improve robust and precise disentanglement. CIR is a general module and we merge CIR with three different algorithms: ELEGANT, I2I-Dis, and GZS-Net to show the compatibility and effectiveness. Qualitative and quantitative experiments show improvement in C-Dis-RL and latent convexity by CIR. This further improves downstream tasks: controllable image synthesis, cross-modality image translation, and zero-shot synthesis.
updated: Wed Mar 23 2022 18:48:48 GMT+0000 (UTC)
published: Mon Dec 06 2021 16:52:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト