バーチャルトライオンは、店内の衣服と参照者の画像を使用して、フォトリアリスティックなフィッティング結果を生成することを目的としています。既存の方法は通常、衣服の反りとボディのブレンドをそれぞれ処理するために多段階のフレームワークを構築するか、ノイズが多いか不正確でさえある可能性がある中間のパーサーベースのラベルに大きく依存しています。上記の課題を解決するために、変形可能注意スキームをマルチフロー推定に適用する新しい変形可能注意フロー(DAFlow)を開発することにより、単一段階の試着フレームワークを提案します。ポーズのキーポイントをガイダンスとしてのみ使用して、自己変形可能な注意フローと交差変形可能な注意フローを、それぞれ参照者と衣服の画像について推定します。複数のフローフィールドをサンプリングすることにより、異なるセマンティック領域からの機能レベルとピクセルレベルの情報が同時に抽出され、アテンションメカニズムによってマージされます。衣服の反りと体の合成を同時に可能にし、エンドツーエンドでフォトリアリスティックな結果をもたらします。 2つの試着データセットでの広範な実験は、提案された方法が定性的および定量的の両方で最先端のパフォーマンスを達成することを示しています。さらに、他の2つの画像編集タスクに関する追加の実験は、マルチビュー合成と画像アニメーションの方法の多様性を示しています。
Virtual try-on aims to generate a photo-realistic fitting result given an in-shop garment and a reference person image. Existing methods usually build up multi-stage frameworks to deal with clothes warping and body blending respectively, or rely heavily on intermediate parser-based labels which may be noisy or even inaccurate. To solve the above challenges, we propose a single-stage try-on framework by developing a novel Deformable Attention Flow (DAFlow), which applies the deformable attention scheme to multi-flow estimation. With pose keypoints as the guidance only, the self- and cross-deformable attention flows are estimated for the reference person and the garment images, respectively. By sampling multiple flow fields, the feature-level and pixel-level information from different semantic areas are simultaneously extracted and merged through the attention mechanism. It enables clothes warping and body synthesizing at the same time which leads to photo-realistic results in an end-to-end manner. Extensive experiments on two try-on datasets demonstrate that our proposed method achieves state-of-the-art performance both qualitatively and quantitatively. Furthermore, additional experiments on the other two image editing tasks illustrate the versatility of our method for multi-view synthesis and image animation.