ディープフェイクの悪用のため、偽造ビデオの検出が強く望まれています。既存の検出アプローチは、ディープフェイクビデオの特定のアーティファクトの調査に貢献し、特定のデータにうまく適合します。ただし、これらのアーティファクトの成長技術は、従来のディープフェイク検出器の堅牢性に挑戦し続けています。その結果、これらのアプローチの一般化可能性の開発は妨げになっています。この問題に対処するために、ディープフェイクのビデオでは声と顔の背後にあるアイデンティティがしばしば不一致であり、声と顔がある程度均質であるという経験的結果を考慮して、この論文では、未踏の声からディープフェイクの検出を実行することを提案します-顔のマッチングビュー。この目的のために、一般的な視聴覚データセットでこれら2つの一致度を測定するために、音声顔一致検出モデルが考案されています。その後、このモデルを微調整することなくディープフェイクデータセットにスムーズに転送できるため、データセット全体の一般化が強化されます。広く利用されている2つのデータセット(DFDCとFakeAVCeleb)に対して広範な実験を行います。私たちのモデルは、他の最先端の競合他社と比較して大幅に改善されたパフォーマンスを取得し、好ましい一般化可能性を維持します。コードはhttps://github.com/xaCheng1996/VFDでリリースされています。
Detecting forgery videos is highly desired due to the abuse of deepfake. Existing detection approaches contribute to exploring the specific artifacts in deepfake videos and fit well on certain data. However, the growing technique on these artifacts keeps challenging the robustness of traditional deepfake detectors. As a result, the development of generalizability of these approaches has reached a blockage. To address this issue, given the empirical results that the identities behind voices and faces are often mismatched in deepfake videos, and the voices and faces have homogeneity to some extent, in this paper, we propose to perform the deepfake detection from an unexplored voice-face matching view. To this end, a voice-face matching detection model is devised to measure the matching degree of these two on a generic audio-visual dataset. Thereafter, this model can be smoothly transferred to deepfake datasets without any fine-tuning, and the generalization across datasets is accordingly enhanced. We conduct extensive experiments over two widely exploited datasets - DFDC and FakeAVCeleb. Our model obtains significantly improved performance as compared to other state-of-the-art competitors and maintains favorable generalizability. The code has been released at https://github.com/xaCheng1996/VFD.