arXiv reaDer
LayoutDiffusion: レイアウトから画像への生成のための制御可能な拡散モデル
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
最近では、拡散モデルが画像合成で大きな成功を収めています。ただし、画像に複数のオブジェクトの複雑なシーンが含まれることが多いレイアウトから画像への生成に関しては、グローバル レイアウト マップと各詳細オブジェクトの両方を強力に制御する方法は依然として困難な作業です。本論文では、これまでの研究よりも高い生成品質と優れた制御性を得ることができる LayoutDiffusion という名前の拡散モデルを提案します。画像とレイアウトの困難なマルチモーダル融合を克服するために、領域情報を含む構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換して、通常のレイアウトと統一された形で融合することを提案します。さらに、Layout Fusion Module (LFM) と Object-aware Cross Attention (OaCA) は、複数のオブジェクト間の関係をモデル化するために提案されており、オブジェクトを認識し、位置に依存するように設計されているため、空間関連情報を正確に制御できます。広範な実験により、LayoutDiffusion は、FID、CAS で以前の SOTA メソッドよりも相対的に 46.35%、COCO で 26.70%、VG で 44.29%、41.82% 優れていることが示されています。コードは https://github.com/ZGCTroy/LayoutDiffusion で入手できます。
Recently, diffusion models have achieved great success in image synthesis. However, when it comes to the layout-to-image generation where an image often has a complex scene of multiple objects, how to make strong control over both the global layout map and each detailed object remains a challenging task. In this paper, we propose a diffusion model named LayoutDiffusion that can obtain higher generation quality and greater controllability than the previous works. To overcome the difficult multimodal fusion of image and layout, we propose to construct a structural image patch with region information and transform the patched image into a special layout to fuse with the normal layout in a unified form. Moreover, Layout Fusion Module (LFM) and Object-aware Cross Attention (OaCA) are proposed to model the relationship among multiple objects and designed to be object-aware and position-sensitive, allowing for precisely controlling the spatial related information. Extensive experiments show that our LayoutDiffusion outperforms the previous SOTA methods on FID, CAS by relatively 46.35%, 26.70% on COCO-stuff and 44.29%, 41.82% on VG. Code is available at https://github.com/ZGCTroy/LayoutDiffusion.
updated: Tue Mar 12 2024 13:15:24 GMT+0000 (UTC)
published: Thu Mar 30 2023 06:56:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト