オーディオからリアルな唇の動きを生成して音声生成をシミュレートすることは、自然なキャラクター アニメーションを推進するために重要です。以前の研究では、音声から唇の動きを生成するためのモデルを最適化および評価するために使用される従来のメトリックは、アニメーションの品質の主観的な意見の良い指標ではないことが示されています。主観的な意見に沿った指標を考案するには、まず人間の品質認識に何が影響するかを理解する必要があります。この作業では、調音の程度に焦点を当て、一連の実験を実行して、発話に伴う唇の動きに対する人間の知覚に調音の強さがどのように影響するかを調べます。具体的には、唇の動きが過小 (減衰) および過大 (誇張) に増加すると、人間の品質に対する認識にどのように影響するかを研究します。ランドマークによって表される話している顔が視聴者に提示される唇の動きのみを考慮した場合と、写真のようにリアルなビデオが視聴者に提示される具体化されたキャラクターのコンテキストで、人間の知覚に対する関節強度の影響を調べます。私たちの結果は、視聴者が一貫して関節の少ない唇の動きよりも関節の多い唇の動きを好むこと、およびこの好みがさまざまな話者や実施形態にわたって一般化することを示しています。
Generating realistic lip motion from audio to simulate speech production is critical for driving natural character animation. Previous research has shown that traditional metrics used to optimize and assess models for generating lip motion from speech are not a good indicator of subjective opinion of animation quality. Devising metrics that align with subjective opinion first requires understanding what impacts human perception of quality. In this work, we focus on the degree of articulation and run a series of experiments to study how articulation strength impacts human perception of lip motion accompanying speech. Specifically, we study how increasing under-articulated (dampened) and over-articulated (exaggerated) lip motion affects human perception of quality. We examine the impact of articulation strength on human perception when considering only lip motion, where viewers are presented with talking faces represented by landmarks, and in the context of embodied characters, where viewers are presented with photo-realistic videos. Our results show that viewers prefer over-articulated lip motion consistently more than under-articulated lip motion and that this preference generalizes across different speakers and embodiments.