ダビングは、ビデオコンテンツをある言語から別の言語に翻訳するための手法です。ただし、最先端のビジュアルダビング技術は、ユニークなタイプの笑顔などのアイデンティティ固有の特異性を考慮せずに、ソースからターゲットアクターに表情を直接コピーします。単一のビデオ入力からスタイルを維持するビジュアルダビングアプローチを提示します。これは、口の動きを含む顔の表情を外国語に合わせて変更するときに、ターゲットアクターのシグネチャスタイルを維持します。私たちのアプローチの中心にあるのは、特に表情のモーションスタイルの概念、つまり、顔編集アプリケーションの視覚的精度を超えたさらに別の重要な要素である個人固有の表情の変化です。私たちの方法は、表情の時空間的同時活性化をキャプチャし、そのスタイルを維持しながら、ターゲット俳優の表情を生成および変更することを可能にする再発性の生成的敵対ネットワークに基づいています。サイクルの一貫性と口の表現の損失を使用して、教師なしの方法で非同期のソースビデオとターゲットビデオでモデルをトレーニングし、階層化されたニューラルフェイスレンダラーを使用してフォトリアリスティックなビデオフレームを合成します。私たちのアプローチは、時間的に一貫した結果を生成し、動的背景を処理します。私たちの結果は、私たちのダビングアプローチが、ソースアクターとターゲットアクターが大きく異なる場合でも、以前のアプローチよりもターゲットアクターの特異なスタイルを維持していることを示しています。
Dubbing is a technique for translating video content from one language to another. However, state-of-the-art visual dubbing techniques directly copy facial expressions from source to target actors without considering identity-specific idiosyncrasies such as a unique type of smile. We present a style-preserving visual dubbing approach from single video inputs, which maintains the signature style of target actors when modifying facial expressions, including mouth motions, to match foreign languages. At the heart of our approach is the concept of motion style, in particular for facial expressions, i.e., the person-specific expression change that is yet another essential factor beyond visual accuracy in face editing applications. Our method is based on a recurrent generative adversarial network that captures the spatiotemporal co-activation of facial expressions, and enables generating and modifying the facial expressions of the target actor while preserving their style. We train our model with unsynchronized source and target videos in an unsupervised manner using cycle-consistency and mouth expression losses, and synthesize photorealistic video frames using a layered neural face renderer. Our approach generates temporally coherent results, and handles dynamic backgrounds. Our results show that our dubbing approach maintains the idiosyncratic style of the target actor better than previous approaches, even for widely differing source and target actors.