arXiv reaDer
コラージュの拡散
Collage Diffusion
私たちは、複雑なシーンをレイヤーのシーケンスとしてモデル化し、シーン内のオブジェクトの望ましい空間配置と視覚的属性を定義することで、ユーザーが拡散ベースの画像生成を正確に制御できるように努めています。コラージュ拡散は、入力レイヤーを調和させてオブジェクトを適合させます。主な課題には、調和プロセスで他の属性の変更を許可しながら、入力レイヤーの位置と主要なビジュアル属性の変更を最小限に抑えることが含まれます。レイヤーのアルファマスクを使用してテキストと画像の相互注意を変更することで、オブジェクトが正しい位置に生成されるようにします。レイヤーごとに特殊なテキスト表現を学習し、レイヤー上で動作するように ControlNet を拡張することにより、入力レイヤーの主要な視覚属性を保持します。レイヤー入力により、ユーザーはオブジェクトごとに画像の調和の程度を制御でき、他のオブジェクトを固定したまま、生成された画像内の個々のオブジェクトを繰り返し編集することもできます。コラージュ拡散は、レイヤー入力に存在する豊富な情報を活用することで、従来のアプローチよりも望ましいオブジェクトの特性を維持する、全体的に調和した画像を生成します。
We seek to give users precise control over diffusion-based image generation by modeling complex scenes as sequences of layers, which define the desired spatial arrangement and visual attributes of objects in the scene. Collage Diffusion harmonizes the input layers to make objects fit together -- the key challenge involves minimizing changes in the positions and key visual attributes of the input layers while allowing other attributes to change in the harmonization process. We ensure that objects are generated in the correct locations by modifying text-image cross-attention with the layers' alpha masks. We preserve key visual attributes of input layers by learning specialized text representations per layer and by extending ControlNet to operate on layers. Layer input allows users to control the extent of image harmonization on a per-object basis, and users can even iteratively edit individual objects in generated images while keeping other objects fixed. By leveraging the rich information present in layer input, Collage Diffusion generates globally harmonized images that maintain desired object characteristics better than prior approaches.
updated: Thu Aug 31 2023 09:01:35 GMT+0000 (UTC)
published: Wed Mar 01 2023 06:35:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト