この作業では、ID を保持するトーキング ヘッド生成フレームワークを提案します。これは、以前の方法を 2 つの側面で進めます。まず、まばらな流れから補間するのではなく、正確なジオメトリを意識した流れ場を実現するには密集したランドマークが重要であると主張します。次に、顔の交換方法に触発されて、合成中にソースのアイデンティティを適応的に融合し、ネットワークが画像のポートレートの重要な特徴をより適切に保持できるようにします。提案されたモデルは、確立されたベンチマークで前世代の忠実度を上回っていますが、トーキング ヘッドの世代を実際の使用に適したものにするためには、通常、個別の微調整が必要です。ただし、このプロセスはかなり計算量が多く、標準ユーザーには手が届きません。これを解決するために、メタ学習アプローチを使用した高速適応モデルを提案します。学習したモデルは、わずか 30 秒で高品質のパーソナライズされたモデルに適応できます。最後になりましたが、時間的一貫性を確保しながら細部を改善するために、時空間強化モジュールが提案されています。広範な実験により、ワンショットおよびパーソナライズされた設定の両方で、最先端の技術よりも私たちのアプローチが大幅に優れていることが証明されています.
In this work, we propose an ID-preserving talking head generation framework, which advances previous methods in two aspects. First, as opposed to interpolating from sparse flow, we claim that dense landmarks are crucial to achieving accurate geometry-aware flow fields. Second, inspired by face-swapping methods, we adaptively fuse the source identity during synthesis, so that the network better preserves the key characteristics of the image portrait. Although the proposed model surpasses prior generation fidelity on established benchmarks, to further make the talking head generation qualified for real usage, personalized fine-tuning is usually needed. However, this process is rather computationally demanding that is unaffordable to standard users. To solve this, we propose a fast adaptation model using a meta-learning approach. The learned model can be adapted to a high-quality personalized model as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement module is proposed to improve the fine details while ensuring temporal coherency. Extensive experiments prove the significant superiority of our approach over the state of the arts in both one-shot and personalized settings.