社会的影響が大きいため、ディープフェイク検出はコンピューター ビジョン コミュニティで積極的に注目されています。ほとんどのディープフェイク検出方法は、コンテンツの意味をそのまま維持しながら、ビデオ全体またはランダムな場所での身元、顔の属性、および敵対的な摂動ベースの時空間変更に依存しています。ただし、洗練されたディープフェイクには、ビデオ/オーディオ操作の小さなセグメントしか含まれていない可能性があり、これにより、たとえば、感情の観点からコンテンツの意味が完全に逆転する可能性があります.ローカライズされたオーディオ ビジュアル ディープフェイク (LAV-DF) と呼ばれる、コンテンツ主導のオーディオ ビジュアル ディープフェイク データセットを紹介します。これは、一時的な偽造ローカリゼーションを学習するタスク用に明示的に設計されています。具体的には、コンテンツ主導の視聴覚操作が戦略的に実行され、ビデオ全体の感情の極性が変化します。提案されたデータセットをベンチマークするための基本的な方法は、境界認識時間偽造検出 (BA-TFD) と呼ばれる 3DCNN モデルであり、対照的、境界マッチング、およびフレーム分類損失関数によって導かれます。私たちの広範な定量的および定性的な分析は、一時的な偽造のローカリゼーションとディープフェイクの検出タスクに対する提案された方法の強力なパフォーマンスを示しています。
Due to its high societal impact, deepfake detection is getting active attention in the computer vision community. Most deepfake detection methods rely on identity, facial attributes, and adversarial perturbation-based spatio-temporal modifications at the whole video or random locations while keeping the meaning of the content intact. However, a sophisticated deepfake may contain only a small segment of video/audio manipulation, through which the meaning of the content can be, for example, completely inverted from a sentiment perspective. We introduce a content-driven audio-visual deepfake dataset, termed Localized Audio Visual DeepFake (LAV-DF), explicitly designed for the task of learning temporal forgery localization. Specifically, the content-driven audio-visual manipulations are performed strategically to change the sentiment polarity of the whole video. Our baseline method for benchmarking the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching, and frame classification loss functions. Our extensive quantitative and qualitative analysis demonstrates the proposed method's strong performance for temporal forgery localization and deepfake detection tasks.