arXiv reaDer
リップシンクのためのリップムーブメント情報の解きほぐし
Lip movements information disentanglement for lip sync
唇の動きの情報は、多くの視聴覚タスクにとって重要です。ただし、ビデオから唇の動きの情報を抽出することは困難です。これは、個人のアイデンティティや頭のポーズなどの要因によって簡単に混乱する可能性があるためです。この論文では、パラメトリック3D顔モデルを利用して、唇の動きの情報を明示的に解きほぐすことを提案します。最近の3D顔再構成の進歩に加えて、まず、唇の動きの情報が存在する表現情報を一貫して解きほぐすことができる方法を提供します。次に、解きほぐされた唇の動きの情報を使用して顔を合成することにより、摂動要因の影響が軽減されると、はるかに少ないデータでリップシンクタスクをより適切に実行できることを示します。最後に、アクティブスピーカー検出タスクの目に見えないデータセットでテストし、競争力のあるパフォーマンスを実現することで、実際にその有効性を示します。
The lip movements information is critical for many audio-visual tasks. However, extracting lip movements information from videos is challenging, as it can be easily perturbed by factors like personal identities and head poses. This paper proposes utilizing the parametric 3D face model to disentangle lip movements information explicitly. Building on top of the recent 3D face reconstruction advances, we firstly offer a method that can consistently disentangle expression information, where the lip movements information lies. Then we demonstrate that once the influences of perturbing factors are alleviated by synthesizing faces with the disentangled lip movements information, the lip-sync task can be done better with much fewer data. Finally, we show its effectiveness in the wild by testing it on an unseen dataset for the active speaker detection task and achieving competitive performance.
updated: Sun Feb 13 2022 04:09:21 GMT+0000 (UTC)
published: Sun Feb 13 2022 04:09:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト