arXiv reaDer
堅牢なディープフェイク検出のための不変のテクスチャ違反の特定
Identifying Invariant Texture Violation for Robust Deepfake Detection
既存のディープフェイク検出方法は、公開された大規模データセットにアクセスすることにより、有望な配布結果を報告しています。ただし、滑らかでない合成方法のため、このデータセット内の偽のサンプルは、上記のフレームレベルの検出方法のほとんどに大きく依存していた明らかなアーティファクト(たとえば、はっきりとした視覚的コントラスト、滑らかでない境界)を公開する可能性があります。これらのアーティファクトは実際のメディア偽造では発生しないため、上記の方法を現実に近い偽の画像に適用すると、大幅な劣化が発生する可能性があります。高リアリズムの偽のデータの堅牢性を向上させるために、低視覚品質で公開されたデータセットにのみアクセスする不変テクスチャ学習(InTeLe)フレームワークを提案します。私たちの方法は、ソースの顔の微視的な顔のテクスチャが、ターゲットの人物から転送されたテクスチャによって必然的に侵害されるという以前の方法に基づいています。したがって、すべての偽の画像で共有される不変の特性と見なすことができます。ディープフェイク検出のこのような不変性を学習するために、InTeLeは、元の画像と偽の画像のさまざまなデコーダーを備えたオートエンコーダフレームワークを導入します。さらに、明らかなアーティファクト効果を分離するために浅い分類子が追加されます。このような分離を備えたエンコーダーによって抽出された埋め込みは、偽の画像のテクスチャ違反をキャプチャし、その後に最終的な元の/偽の予測のための分類子をキャプチャできます。理論的な保証として、このような不変テクスチャ違反の識別可能性、つまり観測データから正確に推測できることを証明します。私たちの方法の有効性と有用性は、明らかなアーティファクトを伴う低品質の画像から高いリアリズムを備えた偽の画像までの有望な一般化能力によって実証されています。
Existing deepfake detection methods have reported promising in-distribution results, by accessing published large-scale dataset. However, due to the non-smooth synthesis method, the fake samples in this dataset may expose obvious artifacts (e.g., stark visual contrast, non-smooth boundary), which were heavily relied on by most of the frame-level detection methods above. As these artifacts do not come up in real media forgeries, the above methods can suffer from a large degradation when applied to fake images that close to reality. To improve the robustness for high-realism fake data, we propose the Invariant Texture Learning (InTeLe) framework, which only accesses the published dataset with low visual quality. Our method is based on the prior that the microscopic facial texture of the source face is inevitably violated by the texture transferred from the target person, which can hence be regarded as the invariant characterization shared among all fake images. To learn such an invariance for deepfake detection, our InTeLe introduces an auto-encoder framework with different decoders for pristine and fake images, which are further appended with a shallow classifier in order to separate out the obvious artifact-effect. Equipped with such a separation, the extracted embedding by encoder can capture the texture violation in fake images, followed by the classifier for the final pristine/fake prediction. As a theoretical guarantee, we prove the identifiability of such an invariance texture violation, i.e., to be precisely inferred from observational data. The effectiveness and utility of our method are demonstrated by promising generalization ability from low-quality images with obvious artifacts to fake images with high realism.
updated: Sat Dec 19 2020 03:02:15 GMT+0000 (UTC)
published: Sat Dec 19 2020 03:02:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト