最新のジェネレーターは、印象的なレベルのフォトリアリズムでトーキングヘッド ビデオをレンダリングし、限られた帯域幅予算の下でのビデオ会議などの新しいユーザー エクスペリエンスをもたらします。ただし、安全に採用するには、レンダリングされたビデオが信頼できるかどうかを検証するメカニズムが必要です。たとえば、ビデオ会議の場合、合成ビデオ ポートレートが同意なしに個人の外観を使用するケースを特定する必要があります。このタスクをアバター フィンガープリンティングと呼びます。一人一人に固有の顔の動きの特徴を活用して、それに取り組むことを提案します。具体的には、合成ビデオの外観に関係なく、1 つのアイデンティティのモーション シグネチャがグループ化され、他のアイデンティティのモーション シグネチャから押し出される埋め込みを学習します。アバター フィンガープリンティング アルゴリズムは、トーキング ヘッド ジェネレーターがよりユビキタスになるにつれて重要になりますが、この新しいタスクのための大規模なデータセットはまだ存在しません。したがって、私たちは、スクリプト化された即興の短い独白を提供する人々の大規模なデータセットを提供し、合成ビデオを伴って、ある人物のビデオを別の人物の顔の外観を使用してレンダリングします。プロジェクト ページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Modern generators render talking-head videos with impressive levels of photorealism, ushering in new user experiences such as videoconferencing under constrained bandwidth budgets. Their safe adoption, however, requires a mechanism to verify if the rendered video is trustworthy. For instance, for videoconferencing we must identify cases in which a synthetic video portrait uses the appearance of an individual without their consent. We term this task avatar fingerprinting. We propose to tackle it by leveraging facial motion signatures unique to each person. Specifically, we learn an embedding in which the motion signatures of one identity are grouped together, and pushed away from those of other identities, regardless of the appearance in the synthetic video. Avatar fingerprinting algorithms will be critical as talking head generators become more ubiquitous, and yet no large scale datasets exist for this new task. Therefore, we contribute a large dataset of people delivering scripted and improvised short monologues, accompanied by synthetic videos in which we render videos of one person using the facial appearance of another. Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.