クロスセンサーギャップは、不均一な顔認識(HFR)に対する多くの研究関心を呼び起こした課題の1つです。最近の方法は、深い生成ネットワークでギャップを埋めようとしましたが、それらのほとんどは、異なる顔のモダリティ間の不可避なミスアライメントに悩まされています。画像センサーの代わりに、ミスアラインメントは主に、スペクトルに依存しない顔の幾何学的な変化から生じます。この論文では、モノリシックだが複雑な構造を構築するのではなく、独立した要因のもつれを解き、個々の段階でそれらに対処するためのポーズ整列クロススペクトル幻覚(PACH)アプローチを提案します。最初の段階では、監視されていない顔の位置合わせ(UFA)モジュールは、近赤外線(NIR)画像の顔の形を可視(VIS)画像の顔の形と生成的な方法で合わせるように設計されています。形状ガイダンス。したがって、第2ステージのタスクは、ペアになったデータが整列したスペクトル変換になります。テクスチャ事前制御(TPS)モジュールを開発して、肌の色をコントロールし、その結果、既存の方法よりもリアルなVIS画像を生成します。 3つの困難なNIR-VISデータセットでの実験により、視覚的に魅力的な画像を生成し、HFRで最先端のパフォーマンスを実現する上でのアプローチの有効性を検証します。
The cross-sensor gap is one of the challenges that have aroused much research interests in Heterogeneous Face Recognition (HFR). Although recent methods have attempted to fill the gap with deep generative networks, most of them suffer from the inevitable misalignment between different face modalities. Instead of imaging sensors, the misalignment primarily results from facial geometric variations that are independent of the spectrum. Rather than building a monolithic but complex structure, this paper proposes a Pose Aligned Cross-spectral Hallucination (PACH) approach to disentangle the independent factors and deal with them in individual stages. In the first stage, an Unsupervised Face Alignment (UFA) module is designed to align the facial shapes of the near-infrared (NIR) images with those of the visible (VIS) images in a generative way, where UV maps are effectively utilized as the shape guidance. Thus the task of the second stage becomes spectrum translation with aligned paired data. We develop a Texture Prior Synthesis (TPS) module to achieve complexion control and consequently generate more realistic VIS images than existing methods. Experiments on three challenging NIR-VIS datasets verify the effectiveness of our approach in producing visually appealing images and achieving state-of-the-art performance in HFR.