arXiv reaDer
テキストから画像への生成のための規範に基づく潜在空間探索
Norm-guided latent space exploration for text-to-image generation
テキストから画像への拡散モデルは、新しい構成やシナリオでさまざまな概念を合成する上で大きな可能性を示します。しかし、それらの潜在的なシード空間はまだ十分に理解されておらず、新しく珍しい概念の生成に影響を与えることが示されています。具体的には、内挿や重心の検出などの単純な操作は、潜在空間における標準のユークリッド距離や球面距離計ではうまく機能しません。この論文では、現在のトレーニング手順では、狭い範囲のノルム値を持つ入力に偏った拡散モデルが作成されるという観察を行っています。これは、少数ショット学習タスクやロングテール学習タスクにさらに適用できる、画像生成のシード操作に依存する手法に強い意味を持ちます。この問題に対処するために、我々は 2 つのシード間を補間する新しい方法を提案し、それがシードに対するノルムベースの事前分布を考慮した新しい非ユークリッド計量を定義することを実証します。このメトリックを近似するためのシンプルかつ効率的なアルゴリズムを説明し、それを使用して潜在シード空間の重心をさらに定義します。私たちの新しい補間および重心評価技術により、まれなコンセプト画像の生成が大幅に強化されることを示します。これにより、少数ショットおよびロングテールのベンチマークで最先端のパフォーマンスが実現され、生成速度、画質、セマンティック コンテンツの点で従来のアプローチが向上します。
Text-to-image diffusion models show great potential in synthesizing a large variety of concepts in new compositions and scenarios. However, their latent seed space is still not well understood and has been shown to have an impact in generating new and rare concepts. Specifically, simple operations like interpolation and centroid finding work poorly with the standard Euclidean and spherical metrics in the latent space. This paper makes the observation that current training procedures make diffusion models biased toward inputs with a narrow range of norm values. This has strong implications for methods that rely on seed manipulation for image generation that can be further applied to few-shot and long-tail learning tasks. To address this issue, we propose a novel method for interpolating between two seeds and demonstrate that it defines a new non-Euclidean metric that takes into account a norm-based prior on seeds. We describe a simple yet efficient algorithm for approximating this metric and use it to further define centroids in the latent seed space. We show that our new interpolation and centroid evaluation techniques significantly enhance the generation of rare concept images. This further leads to state-of-the-art performance on few-shot and long-tail benchmarks, improving prior approach in terms of generation speed, image quality, and semantic content.
updated: Wed Jun 14 2023 18:12:15 GMT+0000 (UTC)
published: Wed Jun 14 2023 18:12:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト