arXiv reaDer
FakeAVCeleb:新しいオーディオビデオマルチモーダルディープフェイクデータセット
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset
ディープラーニングテクノロジーを使用した、一般にディープフェイクとして知られる偽造ビデオおよびオーディオの生成が大幅に進歩したことで、その誤用の問題は現在よく知られている問題です。最近、人のクローン化または合成された人間の声を生成するという新しい問題が浮上している。 AIベースの深層学習モデルは、わずか数秒の音声を必要とする人の声を合成できます。ディープフェイクのビデオとオーディオを使用したなりすまし攻撃の脅威が浮上しているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検出器が必要です。ディープフェイクの検出は困難な作業であり、研究者は多くの試みを行い、いくつかのディープフェイク検出方法を提案してきました。優れたディープフェイク検出器を開発するには、現実世界のシナリオをキャプチャする大量の高品質のデータセットが必要です。多くの研究者がこの原因に貢献し、自己生成された野生のディープフェイクデータセットをいくつか提供しています。ただし、これらのデータセットのほとんどすべてに、ディープフェイクのビデオまたはオーディオが含まれています。さらに、研究者によって提案された最近のディープフェイクデータセットには、人種的バイアスの問題があります。したがって、優れたディープフェイクのビデオとオーディオのディープフェイクデータセットが非常に必要です。このギャップを埋めるために、ディープフェイクビデオだけでなく、それぞれの合成されたクローンオーディオも含む新しいオーディオビデオディープフェイクデータセット(FakeAVCeleb)を提案します。最近最も人気のあるディープフェイク生成方法を使用してデータセットを生成し、ビデオとオーディオは互いに完全にリップシンクされています。より現実的なデータセットを生成するために、人種的偏見の問題に対処するために、4つの人種的背景(白人、黒人、東アジア、南アジア)を持つ有名人の実際のYouTube動画を選択しました。最後に、マルチモーダルオーディオビデオディープフェイクデータセットに基づいてディープフェイクビデオとオーディオを検出する新しいマルチモーダル検出方法を提案します。
With the significant advancements made in generation of forged video and audio, commonly known as deepfakes, using deep learning technologies, the problem of its misuse is a well-known issue now. Recently, a new problem of generating cloned or synthesized human voice of a person is emerging. AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake videos and audios, new deepfake detectors are need that focuses on both, video and audio. Detecting deepfakes is a challenging task and researchers have made numerous attempts and proposed several deepfake detection methods. To develop a good deepfake detector, a handsome amount of good quality dataset is needed that captures the real world scenarios. Many researchers have contributed in this cause and provided several deepfake dataset, self generated and in-the-wild. However, almost all of these datasets either contains deepfake videos or audio. Moreover, the recent deepfake datasets proposed by researchers have racial bias issues. Hence, there is a crucial need of a good deepfake video and audio deepfake dataset. To fill this gap, we propose a novel Audio-Video Deepfake dataset (FakeAVCeleb) that not only contains deepfake videos but respective synthesized cloned audios as well. We generated our dataset using recent most popular deepfake generation methods and the videos and audios are perfectly lip-synced with each other. To generate a more realistic dataset, we selected real YouTube videos of celebrities having four racial backgrounds (Caucasian, Black, East Asian and South Asian) to counter the racial bias issue. Lastly, we propose a novel multimodal detection method that detects deepfake videos and audios based on our multimodal Audio-Video deepfake dataset.
updated: Wed Aug 11 2021 07:49:36 GMT+0000 (UTC)
published: Wed Aug 11 2021 07:49:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト