arXiv reaDer
マトリックスのグリッチ: コンテンツ主導のオーディオビジュアル偽造検出とローカリゼーションのための大規模ベンチマーク
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization
ほとんどのディープフェイク検出方法は、顔の属性の空間的および/または時空間的変化の検出に焦点を当てており、ビデオが本物か偽物かを検出する二値分類タスクを中心にしています。これは、利用可能なベンチマーク データセットには、ビデオ全体に存在する視覚のみの変更がほとんど含まれているためです。ただし、高度なディープフェイクには、ビデオ コンテンツの意味を完全に変える可能性のある音声または視聴覚操作の小さなセグメントが含まれる場合があります。このギャップに対処するために、戦略的なコンテンツ主導型のオーディオ、ビジュアル、およびオーディオビジュアル操作で構成される新しいデータセットである Localized Audio Visual DeepFake (LAV-DF) を提案し、ベンチマークを行います。提案されたベースライン手法である境界認識時間偽造検出 (BA-TFD) は、マルチモーダル操作を効果的に捕捉する 3D 畳み込みニューラル ネットワーク ベースのアーキテクチャです。バックボーンをマルチスケール ビジョン トランスフォーマーに置き換えることでベースライン手法をさらに改善 (BA-TFD+) し、コントラスト、フレーム分類、境界マッチング、およびマルチモーダル境界マッチング損失関数を使用してトレーニング プロセスをガイドします。定量分析では、新しく提案されたデータセットを含むいくつかのベンチマーク データセットを使用して、時間的偽造位置特定とディープフェイク検出タスクにおける BA-TFD+ の優位性を実証しています。データセット、モデル、コードは https://github.com/ControlNet/LAV-DF で入手できます。
Most deepfake detection methods focus on detecting spatial and/or spatio-temporal changes in facial attributes and are centered around the binary classification task of detecting whether a video is real or fake. This is because available benchmark datasets contain mostly visual-only modifications present in the entirety of the video. However, a sophisticated deepfake may include small segments of audio or audio-visual manipulations that can completely change the meaning of the video content. To addresses this gap, we propose and benchmark a new dataset, Localized Audio Visual DeepFake (LAV-DF), consisting of strategic content-driven audio, visual and audio-visual manipulations. The proposed baseline method, Boundary Aware Temporal Forgery Detection (BA-TFD), is a 3D Convolutional Neural Network-based architecture which effectively captures multimodal manipulations. We further improve (i.e. BA-TFD+) the baseline method by replacing the backbone with a Multiscale Vision Transformer and guide the training process with contrastive, frame classification, boundary matching and multimodal boundary matching loss functions. The quantitative analysis demonstrates the superiority of BA-TFD+ on temporal forgery localization and deepfake detection tasks using several benchmark datasets including our newly proposed dataset. The dataset, models and code are available at https://github.com/ControlNet/LAV-DF.
updated: Sun Jul 16 2023 07:03:45 GMT+0000 (UTC)
published: Wed May 03 2023 08:48:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト