arXiv reaDer
視聴覚人物の DeepFake 検出
Audio-Visual Person-of-Interest DeepFake Detection
顔の操作技術は急速に進歩しており、新しい手法が日々提案されています。この作業の目的は、現実の世界で遭遇するさまざまな操作方法とシナリオに対処できるディープフェイク検出器を提案することです。私たちの重要な洞察は、各人が合成ジェネレーターでは再現できない特定のバイオメトリック特性を持っているということです。したがって、人の身元を特徴付ける高レベルの視聴覚生体特徴を抽出し、それらを使用して関心のある人 (POI) ディープフェイク検出器を作成します。対照的な学習パラダイムを活用して、各 ID を最も区別する動きのある顔とオーディオ セグメントの埋め込みを学習します。その結果、人物のビデオやオーディオが操作されると、埋め込み空間でのその表現が実際の身元と一致しなくなり、信頼性の高い検出が可能になります。トレーニングは、実際の話している顔のビデオに対してのみ実行されるため、検出器は特定の操作方法に依存せず、最高の汎化能力が得られます。さらに、私たちの方法は、単一モダリティ (オーディオのみ、ビデオのみ) とマルチモダリティ (オーディオとビデオ) の両方の攻撃を検出でき、高レベルのセマンティック機能のみに基づいて構築することで、低品質または破損したビデオに対して堅牢です。 .さまざまなデータセットでの実験により、私たちの方法が SOTA パフォーマンスを保証し、高品質、低品質、および攻撃されたビデオでそれぞれ約 3%、10%、および 4% の AUC の点で平均的な改善が確認されました。 https://github.com/grip-unina/poi-forensics
Face manipulation technology is advancing very rapidly, and new methods are being proposed day by day. The aim of this work is to propose a deepfake detector that can cope with the wide variety of manipulation methods and scenarios encountered in the real world. Our key insight is that each person has specific biometric characteristics that a synthetic generator cannot likely reproduce. Accordingly, we extract high-level audio-visual biometric features which characterize the identity of a person, and use them to create a person-of-interest (POI) deepfake detector. We leverage a contrastive learning paradigm to learn the moving-face and audio segment embeddings that are most discriminative for each identity. As a result, when the video and/or audio of a person is manipulated, its representation in the embedding space becomes inconsistent with the real identity, allowing reliable detection. Training is carried out exclusively on real talking-face videos, thus the detector does not depend on any specific manipulation method and yields the highest generalization ability. In addition, our method can detect both single-modality (audio-only, video-only) and multi-modality (audio-video) attacks, and is robust to low-quality or corrupted videos by building only on high-level semantic features. Experiments on a wide variety of datasets confirm that our method ensures a SOTA performance, with an average improvement in terms of AUC of around 3%, 10%, and 4% for high-quality, low quality, and attacked videos, respectively. https://github.com/grip-unina/poi-forensics
updated: Wed Dec 21 2022 23:07:27 GMT+0000 (UTC)
published: Wed Apr 06 2022 20:51:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト