arXiv reaDer
Invertible Frowns:ビデオからビデオへの顔の感情の翻訳
Invertible Frowns: Video-to-Video Facial Emotion Translation
話者のビデオの感情の表情を変更するビデオからビデオへの翻訳アーキテクチャであるWav2Lip-Emotionを紹介します。前の作品では、画像の感情を変更したり、単一の画像を使用して感情をアニメーション化した動画を作成したり、参照動画のランドマークを使用して動画の表情を操ったりしています。ただし、ポストプロダクションでの俳優のパフォーマンスの変更、よりアニメーション化されたスピーカーになるように個人を指導する、電話会議で感情を修正するなど、多くのユースケースでは、ビデオからビデオへの翻訳アプローチが必要です。話者の表現された感情を翻訳しながら、話者の唇の動き、アイデンティティ、ポーズを維持する方法を探ります。私たちのアプローチは、既存のマルチモーダルリップ同期アーキテクチャを拡張して、L1再構成と事前にトレーニングされた感情目標を使用して話者の感情を変更します。また、新しい自動感情評価アプローチを提案し、ユーザー調査でそれを裏付けます。これらは、私たちが唇の同期を維持しながら感情を修正することに成功していることを発見しました。視覚的品質はやや低下しますが、感情の修正が大きくなることと、モデルバリアント間の視覚的品質との間でトレードオフが発生します。それにもかかわらず、(1)感情の表情は、L1の再構築と事前にトレーニングされた感情の目的以外の何物でも変更できないこと、および(2)自動化された感情評価アプローチが人間の判断と一致することを示します。
We present Wav2Lip-Emotion, a video-to-video translation architecture that modifies facial expressions of emotion in videos of speakers. Previous work modifies emotion in images, uses a single image to produce a video with animated emotion, or puppets facial expressions in videos with landmarks from a reference video. However, many use cases such as modifying an actor's performance in post-production, coaching individuals to be more animated speakers, or touching up emotion in a teleconference require a video-to-video translation approach. We explore a method to maintain speakers' lip movements, identity, and pose while translating their expressed emotion. Our approach extends an existing multi-modal lip synchronization architecture to modify the speaker's emotion using L1 reconstruction and pre-trained emotion objectives. We also propose a novel automated emotion evaluation approach and corroborate it with a user study. These find that we succeed in modifying emotion while maintaining lip synchronization. Visual quality is somewhat diminished, with a trade off between greater emotion modification and visual quality between model variants. Nevertheless, we demonstrate (1) that facial expressions of emotion can be modified with nothing other than L1 reconstruction and pre-trained emotion objectives and (2) that our automated emotion evaluation approach aligns with human judgements.
updated: Fri Oct 22 2021 15:44:08 GMT+0000 (UTC)
published: Thu Sep 16 2021 15:43:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト