arXiv reaDer
Face-Dubbing ++:リップ同期、音声保存ビデオの翻訳
Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos
本論文では、音声保存、ビデオの唇同期翻訳のためのニューラルエンドツーエンドシステムを提案します。このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成します。このビデオは、ターゲットのスピーチとリップ同期しますが、スピーチ、音声特性、元のスピーカーの顔のビデオを強調します。パイプラインは、強調検出を含む自動音声認識から始まり、翻訳モデルが続きます。次に、翻訳されたテキストは、元の文からマッピングされた元の強調を再作成するテキスト読み上げモデルによって合成されます。結果として得られる合成音声は、音声変換モデルを使用して元の話者の音声にマッピングされます。最後に、話者の唇を翻訳された音声と同期させるために、条件付き生成敵対的ネットワークベースのモデルは、入力顔画像および音声変換モデルの出力に関して適応された唇の動きのフレームを生成します。最終的に、システムは生成されたビデオと変換されたオーディオを組み合わせて、最終的な出力を生成します。その結果、実際には知らないうちに別の言語で話している話者のビデオが作成されます。設計を評価するために、システム全体のユーザースタディと、単一コンポーネントの個別の評価を示します。システム全体を評価するための利用可能なデータセットがないため、テストセットを収集し、このテストセットでシステムを評価します。結果は、私たちのシステムが、元の話者の特性を維持しながら、ターゲット言語を話す元の話者の説得力のあるビデオを生成できることを示しています。収集されたデータセットは共有されます。
In this paper, we propose a neural end-to-end system for voice preserving, lip-synchronous translation of videos. The system is designed to combine multiple component models and produces a video of the original speaker speaking in the target language that is lip-synchronous with the target speech, yet maintains emphases in speech, voice characteristics, face video of the original speaker. The pipeline starts with automatic speech recognition including emphasis detection, followed by a translation model. The translated text is then synthesized by a Text-to-Speech model that recreates the original emphases mapped from the original sentence. The resulting synthetic voice is then mapped back to the original speakers' voice using a voice conversion model. Finally, to synchronize the lips of the speaker with the translated audio, a conditional generative adversarial network-based model generates frames of adapted lip movements with respect to the input face image as well as the output of the voice conversion model. In the end, the system combines the generated video with the converted audio to produce the final output. The result is a video of a speaker speaking in another language without actually knowing it. To evaluate our design, we present a user study of the complete system as well as separate evaluations of the single components. Since there is no available dataset to evaluate our whole system, we collect a test set and evaluate our system on this test set. The results indicate that our system is able to generate convincing videos of the original speaker speaking the target language while preserving the original speaker's characteristics. The collected dataset will be shared.
updated: Thu Jun 09 2022 14:15:37 GMT+0000 (UTC)
published: Thu Jun 09 2022 14:15:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト