arXiv reaDer
ディープフェイク検出のためのマルチモーダル グラフ学習
Multimodal Graph Learning for Deepfake Detection
既存のディープフェイク検出器は、堅牢性と一般化を実現する上でいくつかの課題に直面しています。主な理由の 1 つは、特に空間、周波数、時間、ランドマークの不一致などのさまざまなアーティファクトが存在する場合に、偽造ビデオから関連情報を抽出する能力が限られていることです。現在の検出器は、十分な情報を提供しない未知の外乱や顔のランドマークの影響を受けやすいピクセル レベルの特徴に依存しています。さらに、ほとんどの検出器は検出のために複数のドメインからの情報を利用できないため、ディープフェイク ビデオを識別する効果が制限されます。これらの制限に対処するために、2 つの GNN といくつかのマルチモーダル フュージョン モジュールを使用して複数のモダリティからの情報を活用する新しいフレームワーク、つまりマルチモーダル グラフ学習 (MGL) を提案します。フレーム レベルでは、双方向のクロスモーダル トランスフォーマーと適応型ゲーティング メカニズムを使用して、空間ドメインと周波数ドメインの特徴を、GNN によってキャプチャされた幾何学的に強化されたランドマークの特徴と組み合わせます。ビデオ レベルでは、Graph Attention Network (GAT) を使用して、ビデオの各フレームをグラフのノードとして表し、時間情報をグラフのエッジにエンコードして、フレーム間の時間的な不一致を抽出します。私たちの提案する方法は、ディープフェイク検出のための際立った特徴を効果的に識別して利用することを目的としています。広く使用されているベンチマークでの広範な実験を通じて、この方法の有効性を評価し、一般化能力と未知の外乱に対するロバスト性の点で、この方法が最先端の検出器よりも優れていることを実証します。
Existing deepfake detectors face several challenges in achieving robustness and generalization. One of the primary reasons is their limited ability to extract relevant information from forgery videos, especially in the presence of various artifacts such as spatial, frequency, temporal, and landmark mismatches. Current detectors rely on pixel-level features that are easily affected by unknown disturbances or facial landmarks that do not provide sufficient information. Furthermore, most detectors cannot utilize information from multiple domains for detection, leading to limited effectiveness in identifying deepfake videos. To address these limitations, we propose a novel framework, namely Multimodal Graph Learning (MGL) that leverages information from multiple modalities using two GNNs and several multimodal fusion modules. At the frame level, we employ a bi-directional cross-modal transformer and an adaptive gating mechanism to combine the features from the spatial and frequency domains with the geometric-enhanced landmark features captured by a GNN. At the video level, we use a Graph Attention Network (GAT) to represent each frame in a video as a node in a graph and encode temporal information into the edges of the graph to extract temporal inconsistency between frames. Our proposed method aims to effectively identify and utilize distinguishing features for deepfake detection. We evaluate the effectiveness of our method through extensive experiments on widely-used benchmarks and demonstrate that our method outperforms the state-of-the-art detectors in terms of generalization ability and robustness against unknown disturbances.
updated: Fri Apr 28 2023 09:13:58 GMT+0000 (UTC)
published: Mon Sep 12 2022 17:17:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト