眼鏡の仮想試着では、実際に試着することなく、さまざまな形やスタイルの眼鏡を顔画像に配置します。既存の方法は印象的な結果を示していますが、眼鏡のスタイルの種類は限られており、対話は必ずしも直感的または効率的ではありません。これらの制限に対処するために、バイナリ マスクとテキストに基づいて眼鏡の形状とスタイルを制御できるテキスト ガイド付きの眼鏡操作方法を提案します。具体的には、マスク条件を抽出するマスクエンコーダーと、テキストとマスク条件の同時注入を可能にする変調モジュールを紹介します。この設計により、テキストの説明と空間的な制約の両方に基づいて、眼鏡の外観をきめ細かく制御できます。私たちのアプローチには、絡み合っていないマッパーと、無関係な領域を保持するデカップリング戦略が含まれており、その結果、ローカル編集が改善されます。さまざまなモダリティ条件の異なる収束速度を処理するために 2 段階のトレーニング スキームを採用し、眼鏡の形状とスタイルの両方をうまく制御します。広範な比較実験とアブレーション分析により、無関係な領域を維持しながら多様な眼鏡スタイルを達成する上での当社のアプローチの有効性が実証されています。
Virtual try-on of eyeglasses involves placing eyeglasses of different shapes and styles onto a face image without physically trying them on. While existing methods have shown impressive results, the variety of eyeglasses styles is limited and the interactions are not always intuitive or efficient. To address these limitations, we propose a Text-guided Eyeglasses Manipulation method that allows for control of the eyeglasses shape and style based on a binary mask and text, respectively. Specifically, we introduce a mask encoder to extract mask conditions and a modulation module that enables simultaneous injection of text and mask conditions. This design allows for fine-grained control of the eyeglasses' appearance based on both textual descriptions and spatial constraints. Our approach includes a disentangled mapper and a decoupling strategy that preserves irrelevant areas, resulting in better local editing. We employ a two-stage training scheme to handle the different convergence speeds of the various modality conditions, successfully controlling both the shape and style of eyeglasses. Extensive comparison experiments and ablation analyses demonstrate the effectiveness of our approach in achieving diverse eyeglasses styles while preserving irrelevant areas.