さまざまな生体認証のクロススペクトル タスクには、Visible-Thermal (VT) 顔のペアが使用されます。しかし、研究室でのキャリブレーションが不足しているため、2 つの異なるセンサー間で写真を撮影すると、ペアの位置が大きくずれてしまい、人物の再識別や生成 AI の結果が低下する可能性があります。この問題を解決するために、Vista Morph と呼ばれる VT 画像登録のアプローチを紹介します。ピクセル マッチングや監視された熱参照のための手動の手作り機能を必要とする既存の VT 顔登録とは異なり、Vista Morph は参照を必要とせず、完全に監視されていません。 Vista Morph は、Vision Transformer (ViT) ベースの Spatial Transformer Network (STN) および Generative Adversarial Networks (GAN) を通じてアフィン マトリックスを学習することにより、顔と顔以外の VT 画像を正常に位置合わせします。私たちのアプローチは、ハード、ノー、ローライトの視覚設定でワープを学習し、テスト時の幾何学的摂動や消去に対して堅牢です。ダウンストリームの生成 AI タスクを実行して、トレーニング データを Vista Morph に登録することで、V2T 画像変換を実行するときに生成されたサーマル フェイスの被験者の同一性が向上することを示します。
For a variety of biometric cross-spectral tasks, Visible-Thermal (VT) facial pairs are used. However, due to a lack of calibration in the lab, photographic capture between two different sensors leads to severely misaligned pairs that can lead to poor results for person re-identification and generative AI. To solve this problem, we introduce our approach for VT image registration called Vista Morph. Unlike existing VT facial registration that requires manual, hand-crafted features for pixel matching and/or a supervised thermal reference, Vista Morph is completely unsupervised without the need for a reference. By learning the affine matrix through a Vision Transformer (ViT)-based Spatial Transformer Network (STN) and Generative Adversarial Networks (GAN), Vista Morph successfully aligns facial and non-facial VT images. Our approach learns warps in Hard, No, and Low-light visual settings and is robust to geometric perturbations and erasure at test time. We conduct a downstream generative AI task to show that registering training data with Vista Morph improves subject identity of generated thermal faces when performing V2T image translation.