arXiv reaDer
直接反転: 拡散モデルを使用した最適化不要のテキスト駆動型リアル イメージ編集
Direct Inversion: Optimization-Free Text-Driven Real Image Editing with Diffusion Models
公開されている大規模なテキストから画像への拡散モデルの台頭により、テキストガイド付きの実際の画像編集は、最近多くの研究の注目を集めています。既存の方法は、何らかの形のインスタンスごとまたはタスクごとの微調整と最適化に依存する傾向があり、複数の新しいビューを必要とするか、実際の画像の同一性、意味の一貫性、およびテキストガイダンスへの忠実さの保存を本質的に絡み合わせます。このホワイトペーパーでは、上記のすべての落とし穴を回避して、テキストプロンプトを介して複雑で非厳密な編集を単一の実画像に適用する、最適化不要で微調整ゼロのフレームワークを提案します。広く利用可能な一般的な事前トレーニング済みのテキストから画像への拡散モデルを使用して、目的の編集を詳述する単一のターゲット テキストを介して、非常に柔軟な方法でポーズ、シーン、背景、スタイル、色、さらには人種的アイデンティティを調整する機能を実証します。 .さらに、直接反転と名付けた私たちの方法は、直感的に構成可能な複数のハイパーパラメーターを提案し、実際の画像編集のさまざまなタイプと範囲を可能にします。多数のタスクのさまざまな入力に適用することにより、高品質で多様で意味的に一貫性のある忠実な実画像編集を生成する方法の有効性を証明します。また、確立された理論で方法を形式化し、さらなる改善のために将来の実験を詳述し、最先端の試みと比較します。
With the rise of large, publicly-available text-to-image diffusion models, text-guided real image editing has garnered much research attention recently. Existing methods tend to either rely on some form of per-instance or per-task fine-tuning and optimization, require multiple novel views, or they inherently entangle preservation of real image identity, semantic coherence, and faithfulness to text guidance. In this paper, we propose an optimization-free and zero fine-tuning framework that applies complex and non-rigid edits to a single real image via a text prompt, avoiding all the pitfalls described above. Using widely-available generic pre-trained text-to-image diffusion models, we demonstrate the ability to modulate pose, scene, background, style, color, and even racial identity in an extremely flexible manner through a single target text detailing the desired edit. Furthermore, our method, which we name Direct Inversion, proposes multiple intuitively configurable hyperparameters to allow for a wide range of types and extents of real image edits. We prove our method's efficacy in producing high-quality, diverse, semantically coherent, and faithful real image edits through applying it on a variety of inputs for a multitude of tasks. We also formalize our method in well-established theory, detail future experiments for further improvement, and compare against state-of-the-art attempts.
updated: Tue Nov 15 2022 01:07:38 GMT+0000 (UTC)
published: Tue Nov 15 2022 01:07:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト