拡散モデルには、純粋なガウス ノイズ イメージのノイズを除去することにより、高品質のイメージを生成する機能があります。以前の研究は主に、ノイズ除去プロセスを調整することによって画像生成の制御を改善することに焦点を当てていましたが、生成された画像を制御するために初期ノイズを操作するという新しい方向性を提案します。安定した拡散に関する実験を通じて、初期潜像のピクセルのブロックが特定のコンテンツを生成する傾向があり、これらのブロックを変更すると、生成される画像に大きな影響を与える可能性があることが示されました。特に、初期画像の一部を変更すると、生成された画像の対応する領域に影響を与え、他の領域には影響を与えないことを示します。これはタスクの再描画に役立ちます。さらに、ピクセルブロックの生成設定は、主に位置ではなく値によって決定されることがわかりました。ユーザーが望むコンテンツを生成する傾向のあるピクセルブロックをユーザー指定の領域に移動することにより、私たちのアプローチは、レイアウトから画像への生成において最先端のパフォーマンスを実現します。私たちの結果は、生成された画像を制御する際の初期画像操作の柔軟性と能力を強調しています。
Diffusion models have the ability to generate high quality images by denoising pure Gaussian noise images. While previous research has primarily focused on improving the control of image generation through adjusting the denoising process, we propose a novel direction of manipulating the initial noise to control the generated image. Through experiments on stable diffusion, we show that blocks of pixels in the initial latent images have a preference for generating specific content, and that modifying these blocks can significantly influence the generated image. In particular, we show that modifying a part of the initial image affects the corresponding region of the generated image while leaving other regions unaffected, which is useful for repainting tasks. Furthermore, we find that the generation preferences of pixel blocks are primarily determined by their values, rather than their position. By moving pixel blocks with a tendency to generate user-desired content to user-specified regions, our approach achieves state-of-the-art performance in layout-to-image generation. Our results highlight the flexibility and power of initial image manipulation in controlling the generated image.