ディープフェイクは、視聴者をだますための超リアルなフェイク ビデオを作成するための合成デジタル メディアです。 Generative Adversarial Networks (GAN) などの深い生成アルゴリズムは、このようなタスクを達成するために広く使用されています。このアプローチは、従来の検出方法では区別が非常に難しい疑似リアルなコンテンツを合成します。ほとんどの場合、このような合成メディアの検出には、畳み込みニューラル ネットワーク (CNN) ベースの弁別器が使用されています。ただし、主に個々のビデオ フレームの空間属性を強調するため、フレーム間の関係から時間情報を学習できません。このホワイト ペーパーでは、オプティカル フロー ベースの特徴抽出アプローチを活用して一時的な特徴を抽出し、分類のためにハイブリッド モデルに供給します。このハイブリッド モデルは、CNN とリカレント ニューラル ネットワーク (RNN) アーキテクチャの組み合わせに基づいています。ハイブリッド モデルは、DFDC、FF++、Celeb-DF などのオープン ソース データセットで効果的なパフォーマンスを提供します。この提案された方法は、DFDC、FF++、および Celeb-DF でそれぞれ 66.26%、91.21%、および 79.49% の精度を示し、約 100 サンプル (フレーム) の非常に削減されたサンプル サイズの No を示します。これにより、既存のモダリティに比べて偽コンテンツの早期発見が期待できます。
Deepfakes are the synthesized digital media in order to create ultra-realistic fake videos to trick the spectator. Deep generative algorithms, such as, Generative Adversarial Networks(GAN) are widely used to accomplish such tasks. This approach synthesizes pseudo-realistic contents that are very difficult to distinguish by traditional detection methods. In most cases, Convolutional Neural Network(CNN) based discriminators are being used for detecting such synthesized media. However, it emphasise primarily on the spatial attributes of individual video frames, thereby fail to learn the temporal information from their inter-frame relations. In this paper, we leveraged an optical flow based feature extraction approach to extract the temporal features, which are then fed to a hybrid model for classification. This hybrid model is based on the combination of CNN and recurrent neural network (RNN) architectures. The hybrid model provides effective performance on open source data-sets such as, DFDC, FF++ and Celeb-DF. This proposed method shows an accuracy of 66.26%, 91.21% and 79.49% in DFDC, FF++, and Celeb-DF respectively with a very reduced No of sample size of approx 100 samples(frames). This promises early detection of fake contents compared to existing modalities.