最近の顔のなりすまし防止方法は、ドメイン内の設定でうまく機能しますが、効果的なアプローチでは、堅牢なパフォーマンスを得るために、さまざまなセンサーを使用して複雑なシーンで取得された画像のはるかに大きな外観の変化を考慮する必要があります。この論文では、堅牢なクロスドメイン顔のなりすまし防止のための適応型ビジョントランスフォーマー(ViT)を紹介します。具体的には、ViTをバックボーンとして採用し、その強みを活用してピクセル間の長距離依存関係を説明します。さらに、ViTにアンサンブルアダプターモジュールと機能ごとの変換レイヤーを導入して、いくつかのサンプルで堅牢なパフォーマンスを実現するためにさまざまなドメインに適応させます。いくつかのベンチマークデータセットでの実験は、提案されたモデルが最先端の方法に対して堅牢で競争力のあるパフォーマンスの両方を達成することを示しています。
While recent face anti-spoofing methods perform well under the intra-domain setups, an effective approach needs to account for much larger appearance variations of images acquired in complex scenes with different sensors for robust performance. In this paper, we present adaptive vision transformers (ViT) for robust cross-domain face anti-spoofing. Specifically, we adopt ViT as a backbone to exploit its strength to account for long-range dependencies among pixels. We further introduce the ensemble adapters module and feature-wise transformation layers in the ViT to adapt to different domains for robust performance with a few samples. Experiments on several benchmark datasets show that the proposed models achieve both robust and competitive performance against the state-of-the-art methods.