ディープフェイクは、視聴者を欺くために信頼できるビデオを取得するためのデジタル操作の結果です。これは、オートエンコーダーまたはGANに基づくディープラーニング技術によって行われ、年々アクセスしやすく正確になり、実際のビデオと区別するのが非常に難しい偽のビデオになります。従来、CNNネットワークはディープフェイク検出を実行するために使用されており、EfficientNetB7に基づく方法を使用して最良の結果が得られました。この研究では、さまざまなタイプのVision Transformerを、特徴抽出器として使用される畳み込みEfficientNet B0と組み合わせて、VisionTransformerを使用するいくつかのごく最近の方法と同等の結果を得ています。最先端のアプローチとは異なり、蒸留法もアンサンブル法も使用していません。最高のモデルは、0.951のAUCと88.0%のF1スコアを達成しました。これは、DeepFake Detection Challenge(DFDC)の最先端に非常に近いものです。
Deepfakes are the result of digital manipulation to obtain credible videos in order to deceive the viewer. This is done through deep learning techniques based on autoencoders or GANs that become more accessible and accurate year after year, resulting in fake videos that are very difficult to distinguish from real ones. Traditionally, CNN networks have been used to perform deepfake detection, with the best results obtained using methods based on EfficientNet B7. In this study, we combine various types of Vision Transformers with a convolutional EfficientNet B0 used as a feature extractor, obtaining comparable results with some very recent methods that use Vision Transformers. Differently from the state-of-the-art approaches, we use neither distillation nor ensemble methods. The best model achieved an AUC of 0.951 and an F1 score of 88.0%, very close to the state-of-the-art on the DeepFake Detection Challenge (DFDC).