arXiv reaDer
表現操作のためのセマンティックセグメンテーションと階層的生成的敵対的ネットワークの統合アーキテクチャ
A Unified Architecture of Semantic Segmentation and Hierarchical Generative Adversarial Networks for Expression Manipulation
必要なものだけを変更して顔の表情を編集することは、画像操作のためのGenerative Adversarial Networks(GAN)における長年の研究課題です。グローバルジェネレーターのみに依存する既存のメソッドのほとんどは、通常、ターゲット属性とともに不要な属性を変更することに悩まされています。最近では、画像全体を扱うグローバルネットワークと、ローカル部分を中心とした複数のローカルネットワークの両方で構成される階層型ネットワークが成功を収めています。ただし、これらの方法では、微分不可能で不正確で非現実的なまばらな顔のキーポイントを中心とする境界ボックスによって局所領域を抽出します。したがって、ソリューションは最適ではなくなり、合成画像の全体的な品質を低下させる不要なアーティファクトが発生します。さらに、最近の研究では、顔の属性と局所的な意味領域との間に強い相関関係があることが示されています。この関係を活用するために、セマンティックセグメンテーションと階層型GANの統合アーキテクチャを設計しました。私たちのフレームワークのユニークな利点は、フォワードパスでセマンティックセグメンテーションネットワークが生成モデルを条件付け、バックワードパスで階層GANからの勾配がセマンティックセグメンテーションネットワークに伝播されることです。これにより、フレームワークがエンドツーエンドの微分可能なアーキテクチャになります。これにより、両方のアーキテクチャが相互にメリットを得ることができます。その利点を実証するために、2つの挑戦的な顔の表情の翻訳ベンチマークであるAffectNetとRaFD、および2つの人気のあるアーキテクチャであるBiSeNetとUNetにわたるセマンティックセグメンテーションベンチマークであるCelebAMask-HQでメソッドを評価します。顔のセグメンテーションと顔の表情の操作タスクの両方に関する私たちの広範な定量的および定性的評価は、既存の最先端の方法に対する私たちの仕事の有効性を検証します。
Editing facial expressions by only changing what we want is a long-standing research problem in Generative Adversarial Networks (GANs) for image manipulation. Most of the existing methods that rely only on a global generator usually suffer from changing unwanted attributes along with the target attributes. Recently, hierarchical networks that consist of both a global network dealing with the whole image and multiple local networks focusing on local parts are showing success. However, these methods extract local regions by bounding boxes centred around the sparse facial key points which are non-differentiable, inaccurate and unrealistic. Hence, the solution becomes sub-optimal, introduces unwanted artefacts degrading the overall quality of the synthetic images. Moreover, a recent study has shown strong correlation between facial attributes and local semantic regions. To exploit this relationship, we designed a unified architecture of semantic segmentation and hierarchical GANs. A unique advantage of our framework is that on forward pass the semantic segmentation network conditions the generative model, and on backward pass gradients from hierarchical GANs are propagated to the semantic segmentation network, which makes our framework an end-to-end differentiable architecture. This allows both architectures to benefit from each other. To demonstrate its advantages, we evaluate our method on two challenging facial expression translation benchmarks, AffectNet and RaFD, and a semantic segmentation benchmark, CelebAMask-HQ across two popular architectures, BiSeNet and UNet. Our extensive quantitative and qualitative evaluations on both face semantic segmentation and face expression manipulation tasks validate the effectiveness of our work over existing state-of-the-art methods.
updated: Wed Dec 08 2021 22:06:31 GMT+0000 (UTC)
published: Wed Dec 08 2021 22:06:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト