arXiv reaDer
Mover: ディープフェイク ビデオ検出のためのマスクおよびリカバリ ベースの顔パーツの一貫性認識メソッド
Mover: Mask and Recovery based Facial Part Consistency Aware Method for Deepfake Video Detection
ディープフェイクの手法は悪意のある目的で広く使用されており、ディープフェイクの検出方法の開発に対する広範な研究の関心が高まっています。ディープフェイクの操作には、通常、顔のパーツの改ざんが含まれます。これにより、顔のさまざまな部分で矛盾が生じる可能性があります。たとえば、ディープフェイク技術は、目は笑ったまま、笑顔の唇を動揺した唇に変える可能性があります。既存の検出方法は、偽造パターンが改善されるにつれて消える傾向にある偽造の特定の指標に依存しています。この制限に対処するために、Mover を提案します。これは、ディープフェイク ビデオの避けられない弱点である不特定の顔部分の不一致を利用する新しいディープフェイク検出モデルです。 Mover は関心領域 (ROI) をランダムにマスクし、顔を復元して不特定の特徴を学習します。これにより、偽の顔を復元することは難しくなりますが、本物の顔は簡単に復元できます。具体的には、実際の顔画像が与えられると、最初にマスクされたオートエンコーダーを事前トレーニングして、顔を 3 つの部分に分割し、ROI をランダムにマスキングすることによって顔部分の一貫性を学習します。ROI は、マスクされていない顔部分に基づいて復元されます。さらに、本物のビデオと偽のビデオの不一致を最大化するために、事前トレーニング済みのエンコーダーとマスクされたオートエンコーダーをそれぞれ利用するデュアル ネットワークを備えた新しいモデルを提案します。 1) 事前トレーニング済みのエンコーダーは、特定のビデオ内の一貫性のない情報のエンコードをキャプチャするように微調整されています。 2) 顔をマッピングし、本物のビデオと偽のビデオを区別するために、事前トレーニング済みのマスクされたオートエンコーダが利用されます。標準ベンチマークでの広範な実験により、Mover が非常に効果的であることが実証されました。
Deepfake techniques have been widely used for malicious purposes, prompting extensive research interest in developing Deepfake detection methods. Deepfake manipulations typically involve tampering with facial parts, which can result in inconsistencies across different parts of the face. For instance, Deepfake techniques may change smiling lips to an upset lip, while the eyes remain smiling. Existing detection methods depend on specific indicators of forgery, which tend to disappear as the forgery patterns are improved. To address the limitation, we propose Mover, a new Deepfake detection model that exploits unspecific facial part inconsistencies, which are inevitable weaknesses of Deepfake videos. Mover randomly masks regions of interest (ROIs) and recovers faces to learn unspecific features, which makes it difficult for fake faces to be recovered, while real faces can be easily recovered. Specifically, given a real face image, we first pretrain a masked autoencoder to learn facial part consistency by dividing faces into three parts and randomly masking ROIs, which are then recovered based on the unmasked facial parts. Furthermore, to maximize the discrepancy between real and fake videos, we propose a novel model with dual networks that utilize the pretrained encoder and masked autoencoder, respectively. 1) The pretrained encoder is finetuned for capturing the encoding of inconsistent information in the given video. 2) The pretrained masked autoencoder is utilized for mapping faces and distinguishing real and fake videos. Our extensive experiments on standard benchmarks demonstrate that Mover is highly effective.
updated: Sat May 06 2023 02:23:25 GMT+0000 (UTC)
published: Fri Mar 03 2023 06:57:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト