ディープフェイクはリアルな顔を操作するもので、セキュリティ、プライバシー、信頼に重大な脅威をもたらす可能性があります。既存の方法は主に、このタスクをバイナリ分類として扱い、デジタル ラベルまたはマスク信号を使用して検出モデルをトレーニングします。私たちは、そのような監視には意味論的な情報と解釈可能性が欠けていると主張します。この問題に対処するために、この論文では、きめの細かい文レベルのプロンプトを注釈として使用する、Visual-Linguistic Face Forgery Detection (VLFFD) という名前の新しいパラダイムを提案します。現在のディープフェイク データセットではテキスト アノテーションが利用できないため、VLFFD はまず、プロンプト フォージェリ イメージ ジェネレーター (PFIG) を介して、対応するきめの細かいプロンプトを含む混合偽造イメージを生成します。次に、細粒度の混合データと粗粒度の元のデータが粗密共同トレーニング フレームワーク (C2F) で共同トレーニングされ、モデルの一般化と解釈可能性が向上します。実験は、提案された方法がいくつかの困難なベンチマークで既存の検出モデルを改善することを示しています。
Deepfakes are realistic face manipulations that can pose serious threats to security, privacy, and trust. Existing methods mostly treat this task as binary classification, which uses digital labels or mask signals to train the detection model. We argue that such supervisions lack semantic information and interpretability. To address this issues, in this paper, we propose a novel paradigm named Visual-Linguistic Face Forgery Detection(VLFFD), which uses fine-grained sentence-level prompts as the annotation. Since text annotations are not available in current deepfakes datasets, VLFFD first generates the mixed forgery image with corresponding fine-grained prompts via Prompt Forgery Image Generator (PFIG). Then, the fine-grained mixed data and coarse-grained original data and is jointly trained with the Coarse-and-Fine Co-training framework (C2F), enabling the model to gain more generalization and interpretability. The experiments show the proposed method improves the existing detection models on several challenging benchmarks.