電子商取引とメタバースの急速に進化する分野では、消費者エクスペリエンスを向上させるための革新的なアプローチが模索され続けています。同時に、拡散モデルの開発における最近の進歩により、生成ネットワークが非常に現実的な画像を作成できるようになりました。これに関連して、画像ベースの仮想試着は、店内で指定された衣服を着ているターゲットモデルの新しい画像を生成することから成りますが、これらの強力な生成ソリューションの可能性をまだ活用できていません。この研究では、仮想試着タスク用の最初の潜在拡散テキスト反転強化モデルである LaDI-VTON を導入します。提案されたアーキテクチャは、学習可能なスキップ接続を利用してモデルの特性を維持しながら生成プロセスを強化する、新しい追加のオートエンコーダー モジュールで拡張された潜在拡散モデルに依存しています。店内の衣服の質感と詳細を効果的に維持するために、衣服の視覚的特徴を CLIP トークン埋め込み空間にマッピングできるテキスト反転コンポーネントを提案します。これにより、生成プロセス。ドレスコードと VITON-HD データセットに関する実験結果は、当社のアプローチが競合他社よりも一貫したマージンで優れており、この課題の重要なマイルストーンを達成していることを示しています。ソース コードとトレーニング済みモデルは、https://github.com/miccunifi/ladi-vton で公開されています。
The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model's characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models are publicly available at: https://github.com/miccunifi/ladi-vton.