arXiv reaDer
SelfTalk: 3D の話し顔を理解するための自己監視型の交換トレーニング図
SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces
音声駆動型の 3D 顔アニメーション技術で、さまざまなマルチメディア分野に応用が広がります。これまでの研究では、音声信号から有望で現実的な唇の動きや顔の表情を生成していました。しかし、データのみによって駆動される従来の回帰モデルは、正確なラベルや異なるモダリティ間のドメインギャップにアクセスすることが困難であるなど、いくつかの本質的な問題に直面しており、精度と一貫性を欠いた満足のいく結果が得られません。ラベル付きデータへの依存を軽減しながら、生成された唇の動きの視覚的精度を高めるために、クロスモーダル ネットワーク システムに自己監視を組み込んで 3D 話している顔を学習する新しいフレームワーク SelfTalk を提案します。このフレームワークは、フェイシャルアニメーター、音声認識装置、読唇インタープリターの 3 つのモジュールから構成されるネットワーク システムを構築します。 SelfTalk の中核は、オーディオ、テキスト、唇の形状の間で互換性のある特徴の交換を容易にする可換トレーニング図であり、モデルがこれらの要素間の複雑な関係を学習できるようにします。提案されたフレームワークは、読唇通訳から学んだ知識を活用して、よりもっともらしい唇の形状を生成します。広範な実験とユーザー調査により、私たちが提案したアプローチが質的にも量的にも最先端のパフォーマンスを達成していることが実証されています。補足ビデオをご覧になることをお勧めします。
Speech-driven 3D face animation technique, extending its applications to various multimedia fields. Previous research has generated promising realistic lip movements and facial expressions from audio signals. However, traditional regression models solely driven by data face several essential problems, such as difficulties in accessing precise labels and domain gaps between different modalities, leading to unsatisfactory results lacking precision and coherence. To enhance the visual accuracy of generated lip movement while reducing the dependence on labeled data, we propose a novel framework SelfTalk, by involving self-supervision in a cross-modals network system to learn 3D talking faces. The framework constructs a network system consisting of three modules: facial animator, speech recognizer, and lip-reading interpreter. The core of SelfTalk is a commutative training diagram that facilitates compatible features exchange among audio, text, and lip shape, enabling our models to learn the intricate connection between these factors. The proposed framework leverages the knowledge learned from the lip-reading interpreter to generate more plausible lip shapes. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. We recommend watching the supplementary video.
updated: Mon Jun 19 2023 09:39:10 GMT+0000 (UTC)
published: Mon Jun 19 2023 09:39:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト