arXiv reaDer
X&Fuse: テキストから画像への生成における視覚情報の融合
X&Fuse: Fusing Visual Information in Text-to-Image Generation
X&Fuse を紹介します。これは、テキストから画像を生成する際に視覚情報を調整するための一般的なアプローチです。テキストから画像への 3 つの異なる生成シナリオで、X&Fuse の可能性を示します。 (i) 一連の画像が利用可能になると、関連する画像を取得して調整し (Retrieve&Fuse)、MS-COCO ベンチマークを大幅に改善し、ゼロで 6.65 の最先端の FID スコアを獲得しました。ショット設定。 (ii) トリミングされたオブジェクトの画像が手元にある場合は、それらを利用してサブジェクト主導の生成 (Crop&Fuse) を実行し、テキストの反転方法よりも 100 倍以上高速です。 (iii) 画像シーン (Scene&Fuse) へのオラクル アクセスにより、ゼロ ショット設定で MS-COCO で 5.03 の FID スコアを達成できます。私たちの実験は、X&Fuse が効果的で、適応しやすく、単純で、モデルが追加の視覚情報から恩恵を受ける可能性のあるシナリオに対する一般的なアプローチであることを示しています。
We introduce X&Fuse, a general approach for conditioning on visual information when generating images from text. We demonstrate the potential of X&Fuse in three different text-to-image generation scenarios. (i) When a bank of images is available, we retrieve and condition on a related image (Retrieve&Fuse), resulting in significant improvements on the MS-COCO benchmark, gaining a state-of-the-art FID score of 6.65 in zero-shot settings. (ii) When cropped-object images are at hand, we utilize them and perform subject-driven generation (Crop&Fuse), outperforming the textual inversion method while being more than x100 faster. (iii) Having oracle access to the image scene (Scene&Fuse), allows us to achieve an FID score of 5.03 on MS-COCO in zero-shot settings. Our experiments indicate that X&Fuse is an effective, easy-to-adapt, simple, and general approach for scenarios in which the model may benefit from additional visual information.
updated: Thu Mar 02 2023 06:33:33 GMT+0000 (UTC)
published: Thu Mar 02 2023 06:33:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト