ニューラルトーキングヘッドビデオ合成モデルを提案し、ビデオ会議への応用を示します。私たちのモデルは、対象者の外観を含むソース画像と出力の動きを指示する運転ビデオを使用して、しゃべる頭のビデオを合成することを学習します。私たちのモーションは、アイデンティティ固有のモーション関連情報が監視なしで分解される、新しいキーポイント表現に基づいてエンコードされます。広範な実験的検証は、私たちのモデルがベンチマークデータセットで競合する方法よりも優れていることを示しています。さらに、当社のコンパクトなキーポイント表現により、帯域幅の10分の1を使用するだけで、商用H.264標準と同じ視覚品質を実現するビデオ会議システムが可能になります。さらに、キーポイント表現により、ユーザーが合成中に頭を回転できることを示します。これは、対面のビデオ会議体験をシミュレートするのに役立ちます。
We propose a neural talking-head video synthesis model and demonstrate its application to video conferencing. Our model learns to synthesize a talking-head video using a source image containing the target person's appearance and a driving video that dictates the motion in the output. Our motion is encoded based on a novel keypoint representation, where the identity-specific and motion-related information is decomposed unsupervisedly. Extensive experimental validation shows that our model outperforms competing methods on benchmark datasets. Moreover, our compact keypoint representation enables a video conferencing system that achieves the same visual quality as the commercial H.264 standard while only using one-tenth of the bandwidth. Besides, we show our keypoint representation allows the user to rotate the head during synthesis, which is useful for simulating a face-to-face video conferencing experience.