DeepFakeの生成方法が改善されたため、変更および操作された面の作成がより一般的になりました。同時に、画像やビデオのコンテンツから操作された顔と元の顔を区別するための検出モデルの開発を見てきました。このホワイトペーパーでは、既存のディープフェイク検出フレームワークの制限と欠点を特定することに焦点を当てています。既存のメソッドとデータセットの定量的および定性的分析を通じて、ディープフェイクの検出を取り巻くいくつかの重要な問題を特定しました。ディープフェイクのデータセットは非常にオーバーサンプリングされているため、モデルが簡単にオーバーフィットすることがわかりました。データセットは、複数の偽のサンプルを生成するために、実際の顔の小さなセットを使用して作成されます。これらのデータセットでトレーニングされると、モデルは偽の機能を学習するのではなく、俳優の顔やラベルを記憶する傾向があります。この問題を軽減するために、Face-Cutoutと呼ばれる単純なデータ拡張方法を提案します。私たちの方法は、顔のランドマーク情報を使用して画像の領域を動的に切り取ります。これは、モデルが入力の関連する領域のみに選択的に参加するのに役立ちます。私たちの評価実験は、Face-Cutoutがデータの変動をうまく改善し、過剰適合の問題を軽減できることを示しています。私たちの方法は、他のオクルージョンベースの手法と比較して、さまざまなデータセットでLogLossを15.2%から35.3%削減します。さらに、既存のアーキテクチャをトレーニングおよび評価するための汎用データ前処理ガイドラインも提案します。これにより、ディープフェイク検出のためのこれらのモデルの一般化可能性を向上させることができます。
The creation of altered and manipulated faces has become more common due to the improvement of DeepFake generation methods. Simultaneously, we have seen detection models' development for differentiating between a manipulated and original face from image or video content. In this paper, we focus on identifying the limitations and shortcomings of existing deepfake detection frameworks. We identified some key problems surrounding deepfake detection through quantitative and qualitative analysis of existing methods and datasets. We found that deepfake datasets are highly oversampled, causing models to become easily overfitted. The datasets are created using a small set of real faces to generate multiple fake samples. When trained on these datasets, models tend to memorize the actors' faces and labels instead of learning fake features. To mitigate this problem, we propose a simple data augmentation method termed Face-Cutout. Our method dynamically cuts out regions of an image using the face landmark information. It helps the model selectively attend to only the relevant regions of the input. Our evaluation experiments show that Face-Cutout can successfully improve the data variation and alleviate the problem of overfitting. Our method achieves a reduction in LogLoss of 15.2% to 35.3% on different datasets, compared to other occlusion-based techniques. Moreover, we also propose a general-purpose data pre-processing guideline to train and evaluate existing architectures allowing us to improve the generalizability of these models for deepfake detection.