最近の顔スプーフィング対策手法はドメイン内設定では良好に機能しますが、効果的なアプローチでは、堅牢なパフォーマンスを実現するために、さまざまなセンサーを使用して複雑なシーンで取得された画像の外観のはるかに大きな変動を考慮する必要があります。この論文では、堅牢なクロスドメイン顔偽装防止のためのアダプティブ ビジョン トランスフォーマー (ViT) を紹介します。具体的には、ViT をバックボーンとして採用し、その強みを活かしてピクセル間の長距離依存性を考慮します。さらに、アンサンブル アダプター モジュールと機能ごとの変換レイヤーを ViT に導入し、さまざまなドメインに適応して、少数のサンプルで堅牢なパフォーマンスを実現します。いくつかのベンチマーク データセットでの実験では、提案されたモデルが、少数のサンプルを使用したクロスドメイン顔偽装防止の最先端の方法に対して、堅牢かつ競争力のあるパフォーマンスの両方を達成していることが示されています。
While recent face anti-spoofing methods perform well under the intra-domain setups, an effective approach needs to account for much larger appearance variations of images acquired in complex scenes with different sensors for robust performance. In this paper, we present adaptive vision transformers (ViT) for robust cross-domain face antispoofing. Specifically, we adopt ViT as a backbone to exploit its strength to account for long-range dependencies among pixels. We further introduce the ensemble adapters module and feature-wise transformation layers in the ViT to adapt to different domains for robust performance with a few samples. Experiments on several benchmark datasets show that the proposed models achieve both robust and competitive performance against the state-of-the-art methods for cross-domain face anti-spoofing using a few samples.