ディープラーニング技術の進歩により、超リアルな画像やビデオ、つまりディープフェイクを生成できるようになりました。これらのディープフェイクは多くの聴衆に到達し、私たちの社会に悪影響を与える可能性があります。ディープフェイクを検出するために多くの努力が費やされてきましたが、それらのパフォーマンスは以前には見られなかったが関連する操作や検出の一般化機能で大幅に低下します。ディープフェイクのきめの細かい性質と空間的な局所性の特徴に動機付けられて、私たちは汎化ギャップを埋める局所性認識オートエンコーダー(LAE)を提案します。トレーニングプロセスでは、ピクセル単位のマスクを使用してLAEのローカル解釈を正規化し、トレーニングセットのアーティファクトをキャプチャして表面的な相関を学習して検出を実行する代わりに、モデルに偽造領域から固有の表現を学習させます。さらに、トレーニングデータの3%未満の人のマスクを必要とするラベリングの挑戦的な候補を選択するアクティブな学習フレームワークを提案し、解釈を正規化するための注釈の労力を大幅に削減します。 3つのディープフェイク検出タスクの実験結果は、LAEが判断を下すために偽造領域に集中できることを示しています。分析はさらに、LAEが、これまで目に見えなかった操作の一般化の精度の点で、3つのディープフェイク検出タスクで最先端技術をそれぞれ6.52%、12.03%、および3.08%優れていることを示しています。
With advancements of deep learning techniques, it is now possible to generate super-realistic images and videos, i.e., deepfakes. These deepfakes could reach mass audience and result in adverse impacts on our society. Although lots of efforts have been devoted to detect deepfakes, their performance drops significantly on previously unseen but related manipulations and the detection generalization capability remains a problem. Motivated by the fine-grained nature and spatial locality characteristics of deepfakes, we propose Locality-Aware AutoEncoder (LAE) to bridge the generalization gap. In the training process, we use a pixel-wise mask to regularize local interpretation of LAE to enforce the model to learn intrinsic representation from the forgery region, instead of capturing artifacts in the training set and learning superficial correlations to perform detection. We further propose an active learning framework to select the challenging candidates for labeling, which requires human masks for less than 3% of the training data, dramatically reducing the annotation efforts to regularize interpretations. Experimental results on three deepfake detection tasks indicate that LAE could focus on the forgery regions to make decisions. The analysis further shows that LAE outperforms the state-of-the-arts by 6.52%, 12.03%, and 3.08% respectively on three deepfake detection tasks in terms of generalization accuracy on previously unseen manipulations.