arXiv reaDer
自己回帰潜在拡散モデルによる首尾一貫したストーリーの合成
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
条件付き拡散モデルは、最先端のテキストから画像への合成能力を実証しています。最近、ほとんどの作品は独立した画像の合成に焦点を当てています。実世界のアプリケーションでは、ストーリーを伝えるために一連の一貫した画像を生成することが一般的であり、必要です。この作業では、主にストーリーの視覚化と継続タスクに焦点を当て、AR-LDM を提案します。AR-LDM は、履歴のキャプションと生成された画像に基づいて自己回帰的に条件付けられた潜在的な拡散モデルです。さらに、AR-LDM は適応によって新しい文字に一般化できます。私たちの知る限り、これは首尾一貫したビジュアル ストーリーの合成に拡散モデルをうまく活用した最初の作品です。定量的な結果は、AR-LDM が PororoSV、FlintstonesSV、および自然画像を含む新しく導入された困難なデータセット VIST で SoTA FID スコアを達成することを示しています。大規模な人間による評価では、AR-LDM が品質、関連性、および一貫性の点で優れたパフォーマンスを発揮することが示されています。
Conditioned diffusion models have demonstrated state-of-the-art text-to-image synthesis capacity. Recently, most works focus on synthesizing independent images; While for real-world applications, it is common and necessary to generate a series of coherent images for story-stelling. In this work, we mainly focus on story visualization and continuation tasks and propose AR-LDM, a latent diffusion model auto-regressively conditioned on history captions and generated images. Moreover, AR-LDM can generalize to new characters through adaptation. To our best knowledge, this is the first work successfully leveraging diffusion models for coherent visual story synthesizing. Quantitative results show that AR-LDM achieves SoTA FID scores on PororoSV, FlintstonesSV, and the newly introduced challenging dataset VIST containing natural images. Large-scale human evaluations show that AR-LDM has superior performance in terms of quality, relevance, and consistency.
updated: Sun Nov 20 2022 11:22:24 GMT+0000 (UTC)
published: Sun Nov 20 2022 11:22:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト