arXiv reaDer
画像情報除去によるテキストから画像への編集
Text-to-image Editing by Image Information Removal
拡散モデルは、テキストガイドによる画像生成において優れたパフォーマンスを実証しています。画像編集においてテキストガイドによる画像生成モデルの知識を活用するために、現在のアプローチでは、入力画像を使用して事前トレーニング済みモデルを微調整するか (例: Imagic)、追加の制約として構造情報を事前トレーニング済みモデルに組み込んでいます (例: ControlNet)。ただし、単一の画像上で大規模な拡散モデルを微調整すると、深刻なオーバーフィッティングの問題が発生し、推論時間が長くなる可能性があります。事前トレーニングされたモデルからの情報漏洩により、言語記述に基づいて新しい特徴を生成しながら、入力画像のテキストに関係のないコンテンツを保存することが困難になります。一方、追加の制約として構造的ガイダンス (エッジ マップ、セマンティック マップ、キーポイントなど) を組み込む方法では、色やテクスチャなどの元の画像の他の属性を保存する際に制限に直面します。元のイメージを組み込む簡単な方法は、それを追加のコントロールとして直接使用することです。ただし、画像編集メソッドは通常、画像再構成タスクでトレーニングされるため、これを組み込むと、モデルが入力と同じ画像を出力することを学習し、編集機能が制限されるという同一マッピングの問題が発生する可能性があります。これらの課題に対処するために、元の画像から色関連情報とテクスチャ関連情報を選択的に消去する画像情報除去モジュール (IIR) を備えたテキストから画像への編集モデルを提案します。これにより、テキストに無関係なコンテンツと、同一のマッピングの問題を回避します。 CUB、Outdoor Scenes、COCO の 3 つのベンチマーク データセットでモデルを評価します。私たちのアプローチは編集可能性と忠実度の最良のトレードオフを実現しており、編集された画像は COCO の従来技術よりもアノテーターに約 35% 好まれています。
Diffusion models have demonstrated impressive performance in text-guided image generation. To leverage the knowledge of text-guided image generation models in image editing, current approaches either fine-tune the pretrained models using the input image (e.g., Imagic) or incorporate structure information as additional constraints into the pretrained models (e.g., ControlNet). However, fine-tuning large-scale diffusion models on a single image can lead to severe overfitting issues and lengthy inference time. The information leakage from pretrained models makes it challenging to preserve the text-irrelevant content of the input image while generating new features guided by language descriptions. On the other hand, methods that incorporate structural guidance (e.g., edge maps, semantic maps, keypoints) as additional constraints face limitations in preserving other attributes of the original image, such as colors or textures. A straightforward way to incorporate the original image is to directly use it as an additional control. However, since image editing methods are typically trained on the image reconstruction task, the incorporation can lead to the identical mapping issue, where the model learns to output an image identical to the input, resulting in limited editing capabilities. To address these challenges, we propose a text-to-image editing model with Image Information Removal module (IIR) to selectively erase color-related and texture-related information from the original image, allowing us to better preserve the text-irrelevant content and avoid the identical mapping issue. We evaluate our model on three benchmark datasets: CUB, Outdoor Scenes, and COCO. Our approach achieves the best editability-fidelity trade-off, and our edited images are approximately 35% more preferred by annotators than the prior-arts on COCO.
updated: Sat May 27 2023 14:48:05 GMT+0000 (UTC)
published: Sat May 27 2023 14:48:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト