arXiv reaDer
Prepended Domain Transformer: 付加機能のない異種の顔認識
Prepended Domain Transformer: Heterogeneous Face Recognition without Bells and Whistles
異種顔認識 (HFR) は、熱画像から可視画像 (VIS)、スケッチから可視画像、近赤外線から可視画像など、さまざまなドメインでキャプチャされた顔画像の照合を指します。これは、可視スペクトル画像を他のモダリティから取得した画像と照合する場合に特に役立ちます。 HFR は非常に便利ですが、ソース ドメインとターゲット ドメインの間にドメイン ギャップがあるため、困難です。多くの場合、大規模なペアの異種顔画像データセットが存在しないため、異種タスク専用のトレーニング モデルが妨げられます。この作業では、さまざまなセンシング モダリティ間で顔画像を照合するための、驚くほど単純でありながら非常に効果的な方法を提案します。提案されたアプローチの核となるアイデアは、事前にトレーニングされた顔認識 (FR) モデルの前に Prepended Domain Transformer (PDT) と呼ばれる新しいニューラル ネットワーク ブロックを追加して、ドメイン ギャップに対処することです。対照的な学習セットアップでペアのサンプルをほとんど使用せずにこの新しいブロックを再トレーニングするだけで、多くの HFR ベンチマークで最先端のパフォーマンスを達成することができました。 PDT ブロックは、提案された一般的なフレームワークを使用して、いくつかのソースとターゲットの組み合わせに対して再トレーニングできます。提案されたアプローチはアーキテクチャにとらわれないものであり、事前にトレーニングされた任意の FR モデルに追加できることを意味します。さらに、アプローチはモジュール式であり、新しいブロックはペアのサンプルの最小限のセットでトレーニングできるため、実際の展開がはるかに簡単になります。ソースコードとプロトコルは公開されます。
Heterogeneous Face Recognition (HFR) refers to matching face images captured in different domains, such as thermal to visible images (VIS), sketches to visible images, near-infrared to visible, and so on. This is particularly useful in matching visible spectrum images to images captured from other modalities. Though highly useful, HFR is challenging because of the domain gap between the source and target domain. Often, large-scale paired heterogeneous face image datasets are absent, preventing training models specifically for the heterogeneous task. In this work, we propose a surprisingly simple, yet, very effective method for matching face images across different sensing modalities. The core idea of the proposed approach is to add a novel neural network block called Prepended Domain Transformer (PDT) in front of a pre-trained face recognition (FR) model to address the domain gap. Retraining this new block with few paired samples in a contrastive learning setup was enough to achieve state-of-the-art performance in many HFR benchmarks. The PDT blocks can be retrained for several source-target combinations using the proposed general framework. The proposed approach is architecture agnostic, meaning they can be added to any pre-trained FR models. Further, the approach is modular and the new block can be trained with a minimal set of paired samples, making it much easier for practical deployment. The source code and protocols will be made available publicly.
updated: Wed Oct 12 2022 18:54:57 GMT+0000 (UTC)
published: Wed Oct 12 2022 18:54:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト