arXiv reaDer
Talk-to-Edit:ダイアログによるきめ細かい顔の編集
Talk-to-Edit: Fine-Grained Facial Editing via Dialog
顔の編集は、多くのアプリケーションでの視覚とグラフィックスの重要なタスクです。しかし、既存の作品では、ユーザーとの自然なやりとりで、継続的かつきめ細かい編集モード(たとえば、微笑んでいる顔を大笑いしている顔に編集する)を提供することはできません。この作品では、ユーザーとシステム間の対話を通じてきめ細かい属性操作を実行するインタラクティブな顔編集フレームワークであるTalk-to-Editを提案します。私たちの重要な洞察は、GAN潜在空間における継続的な「セマンティックフィールド」をモデル化することです。 1)編集を潜在空間内の直線を横断するものと見なす以前の作品とは異なり、ここでは、細粒度編集は、セマンティックフィールド上の細粒度属性ランドスケープを尊重する曲線軌道を見つけることとして定式化されます。 2)各ステップの曲率は場所固有であり、入力画像とユーザーの言語要求によって決定されます。 3)意味のあるダイアログにユーザーを引き込むために、私たちのシステムは、ユーザーの要求とセマンティックフィールドの現在の状態の両方を考慮して言語フィードバックを生成します。また、大規模な研究を促進するための視覚言語の顔編集データセットであるCelebA-Dialogも提供しています。具体的には、各画像には、自然言語でのテンプレートベースのテキスト記述だけでなく、きめ細かい属性注釈も手動で注釈が付けられています。広範な定量的および定性的実験は、1)きめ細かい編集の滑らかさ、2)アイデンティティ/属性の保存、および3)視覚的なフォトリアリズムとダイアログの流暢さの点でフレームワークの優位性を示しています。特に、ユーザー調査では、システム全体が参加者の約80%に一貫して支持されていることが確認されています。私たちのプロジェクトページはhttps://www.mmlab-ntu.com/project/talkedit/です。
Facial editing is an important task in vision and graphics with numerous applications. However, existing works are incapable to deliver a continuous and fine-grained editing mode (e.g., editing a slightly smiling face to a big laughing one) with natural interactions with users. In this work, we propose Talk-to-Edit, an interactive facial editing framework that performs fine-grained attribute manipulation through dialog between the user and the system. Our key insight is to model a continual "semantic field" in the GAN latent space. 1) Unlike previous works that regard the editing as traversing straight lines in the latent space, here the fine-grained editing is formulated as finding a curving trajectory that respects fine-grained attribute landscape on the semantic field. 2) The curvature at each step is location-specific and determined by the input image as well as the users' language requests. 3) To engage the users in a meaningful dialog, our system generates language feedback by considering both the user request and the current state of the semantic field. We also contribute CelebA-Dialog, a visual-language facial editing dataset to facilitate large-scale study. Specifically, each image has manually annotated fine-grained attribute annotations as well as template-based textual descriptions in natural language. Extensive quantitative and qualitative experiments demonstrate the superiority of our framework in terms of 1) the smoothness of fine-grained editing, 2) the identity/attribute preservation, and 3) the visual photorealism and dialog fluency. Notably, user study validates that our overall system is consistently favored by around 80% of the participants. Our project page is https://www.mmlab-ntu.com/project/talkedit/.
updated: Thu Sep 09 2021 17:17:59 GMT+0000 (UTC)
published: Thu Sep 09 2021 17:17:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト