arXiv reaDer
DPE: 一般的なビデオ ポートレート編集のためのポーズと表情のもつれの解消
DPE: Disentanglement of Pose and Expression for General Video Portrait Editing
ワンショットビデオ駆動の話し顔生成は、顔の動きをビデオから任意のポートレート画像に転送することにより、合成会話ビデオを生成することを目的としています。頭のポーズと表情は、常に顔の動きに絡み合って同時に転送されます。ただし、エンタングルメントは、ポーズを変更せずに表情のみを変更する必要があるビデオ ポートレート編集でこれらの方法を直接使用するための障壁を設定します。ポーズと表情をデカップリングする際の課題の 1 つは、同じポーズで表情が異なるなど、ペアのデータが不足していることです。 3D Morphable Models (3DMM) を使用して明示的にもつれを解くことで、この課題に対処しようとする方法はごくわずかです。しかし、3DMM は Blenshapes の数が限られているため、顔の詳細をキャプチャするのに十分な精度がなく、モーション転送に副作用があります。この論文では、モーション編集モジュール、ポーズジェネレーター、およびエクスプレッションジェネレーターで構成される、3DMM とペアデータを使用せずにポーズと表現を分離するための、新しい自己教師ありのほぐしフレームワークを紹介します。編集モジュールは、ポーズの動きと表情の動きを解きほぐすことができる潜在空間に顔を投影し、追加によって潜在空間でポーズまたは表情の転送を便利に実行できます。 2 つのジェネレーターは、変更された潜在コードをそれぞれ画像にレンダリングします。さらに、もつれの解消を保証するために、適切に設計された制約を使用した双方向の循環トレーニング戦略を提案します。評価は、私たちの方法がポーズや表情を独立して制御でき、一般的なビデオ編集に使用できることを示しています。
One-shot video-driven talking face generation aims at producing a synthetic talking video by transferring the facial motion from a video to an arbitrary portrait image. Head pose and facial expression are always entangled in facial motion and transferred simultaneously. However, the entanglement sets up a barrier for these methods to be used in video portrait editing directly, where it may require to modify the expression only while maintaining the pose unchanged. One challenge of decoupling pose and expression is the lack of paired data, such as the same pose but different expressions. Only a few methods attempt to tackle this challenge with the feat of 3D Morphable Models (3DMMs) for explicit disentanglement. But 3DMMs are not accurate enough to capture facial details due to the limited number of Blenshapes, which has side effects on motion transfer. In this paper, we introduce a novel self-supervised disentanglement framework to decouple pose and expression without 3DMMs and paired data, which consists of a motion editing module, a pose generator, and an expression generator. The editing module projects faces into a latent space where pose motion and expression motion can be disentangled, and the pose or expression transfer can be performed in the latent space conveniently via addition. The two generators render the modified latent codes to images, respectively. Moreover, to guarantee the disentanglement, we propose a bidirectional cyclic training strategy with well-designed constraints. Evaluations demonstrate our method can control pose or expression independently and be used for general video editing.
updated: Mon Jan 16 2023 06:39:51 GMT+0000 (UTC)
published: Mon Jan 16 2023 06:39:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト