arXiv reaDer
Semantic Aware Prior を使用した制御可能なワンショット顔ビデオ合成
Controllable One-Shot Face Video Synthesis With Semantic Aware Prior
ワンショット トーキング ヘッド合成タスクは、ソース イメージを別のポーズと表情にアニメートすることを目的としています。これは、駆動フレームによって指示されます。最近の方法は、教師なしで学習されたスパース キーポイントから推定されたモーション フィールドを使用して、ソースから抽出されたアピアランス フィーチャをワープすることに依存しています。軽量な構成のため、帯域幅を抑えたビデオ会議に適しています。ただし、私たちの研究に基づくと、現在の方法には 2 つの大きな制限があります。1) 大きな頭のポーズの場合の不十分な生成品質と、ビデオを駆動する際のソースと最初のフレームの間に観察可能なポーズのずれが存在することです。 2) セマンティックの理解と適切な顔のジオメトリの正則化が不足しているため、細かいけれども重要な顔の動きの詳細をキャプチャできません。これらの欠点に対処するために、豊富な顔の事前情報を活用する新しい方法を提案します。提案されたモデルは、意味の一貫性が向上し (ベースラインが平均キーポイント距離で 7% 向上)、表情が保持され (ベースラインを 15% 上回る)、顔ビデオを生成できます。平均感情埋め込み距離で)同等の帯域幅で。さらに、こうした事前情報を組み込むことで、ポーズと表情の両方で高度に制御可能な生成を実現するための便利なインターフェイスが提供されます。
The one-shot talking-head synthesis task aims to animate a source image to another pose and expression, which is dictated by a driving frame. Recent methods rely on warping the appearance feature extracted from the source, by using motion fields estimated from the sparse keypoints, that are learned in an unsupervised manner. Due to their lightweight formulation, they are suitable for video conferencing with reduced bandwidth. However, based on our study, current methods suffer from two major limitations: 1) unsatisfactory generation quality in the case of large head poses and the existence of observable pose misalignment between the source and the first frame in driving videos. 2) fail to capture fine yet critical face motion details due to the lack of semantic understanding and appropriate face geometry regularization. To address these shortcomings, we propose a novel method that leverages the rich face prior information, the proposed model can generate face videos with improved semantic consistency (improve baseline by 7% in average keypoint distance) and expression-preserving (outperform baseline by 15 % in average emotion embedding distance) under equivalent bandwidth. Additionally, incorporating such prior information provides us with a convenient interface to achieve highly controllable generation in terms of both pose and expression.
updated: Thu Apr 27 2023 19:17:13 GMT+0000 (UTC)
published: Thu Apr 27 2023 19:17:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト