arXiv reaDer
DeepfakeMAE: ディープフェイク ビデオ検出のための顔パーツの一貫性を認識するマスクされたオートエンコーダー
DeepfakeMAE: Facial Part Consistency Aware Masked Autoencoder for Deepfake Video Detection
ディープフェイク技術は悪意を持って使用されてきたため、ディープフェイク検出方法の開発に強い関心が寄せられています。ディープフェイクは、多くの場合、一部の顔のパーツを改ざんしてビデオ コンテンツを操作します。ただし、この操作は通常、顔のパーツ間の一貫性を崩します。たとえば、Deepfake は笑顔の唇を動揺させますが、目はまだ笑っています。既存の研究では、特定の顔のパーツ (唇など) の不一致を検出することが提案されていますが、新しいディープフェイク技術が検出器によって使用される特定の顔のパーツに焦点を当てている場合、パフォーマンスが低下する可能性があります。そこで、本論文では、顔の全パーツの一貫性を利用できる新しい Deepfake 検出モデル、DeepfakeMAE を提案します。具体的には、実際の顔画像が与えられた場合、最初にマスクされたオートエンコーダーを事前トレーニングして、一部の顔パーツをランダムにマスクし、残りの顔パーツに基づいて欠落領域を再構築することにより、顔パーツの一貫性を学習します。さらに、本物の動画と偽の動画の不一致を最大化するために、事前学習済みのエンコーダーとデコーダーをそれぞれ利用するデュアル ネットワークを備えた新しいモデルを提案します。 1) 事前トレーニング済みのエンコーダーは、特定のビデオの全体的な情報をキャプチャするように微調整されています。 2) DeepfakeMAE の再構成は、偽の顔画像よりも実際の顔画像に似ている必要があるという動機に基づいて、事前トレーニング済みのデコーダーを使用して、本物のビデオと偽のビデオを区別します。標準的なベンチマークでの広範な実験は、DeepfakeMAE が非常に効果的であり、特にクロスデータセット検出において平均で 3.1% AUC だけ以前の最先端の方法よりも優れていることを示しています。
Deepfake techniques have been used maliciously, resulting in strong research interests in developing Deepfake detection methods. Deepfake often manipulates the video content by tampering with some facial parts. However, this manipulation usually breaks the consistency among facial parts, e.g., Deepfake may change smiling lips to upset, but the eyes are still smiling. Existing works propose to spot inconsistency on some specific facial parts (e.g., lips), but they may perform poorly if new Deepfake techniques focus on the specific facial parts used by the detector. Thus, this paper proposes a new Deepfake detection model, DeepfakeMAE, which can utilize the consistencies among all facial parts. Specifically, given a real face image, we first pretrain a masked autoencoder to learn facial part consistency by randomly masking some facial parts and reconstructing missing areas based on the remaining facial parts. Furthermore, to maximize the discrepancy between real and fake videos, we propose a novel model with dual networks that utilize the pretrained encoder and decoder, respectively. 1) The pretrained encoder is finetuned for capturing the overall information of the given video. 2) The pretrained decoder is utilized for distinguishing real and fake videos based on the motivation that DeepfakeMAE's reconstruction should be more similar to a real face image than a fake one. Our extensive experiments on standard benchmarks demonstrate that DeepfakeMAE is highly effective and especially outperforms the previous state-of-the-art method by 3.1% AUC on average in cross-dataset detection.
updated: Fri Mar 03 2023 06:57:22 GMT+0000 (UTC)
published: Fri Mar 03 2023 06:57:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト