Towards NIR-VIS Masked Face Recognition
近赤外線から可視(NIR-VIS)の顔認識は、2つの異なるモダリティからキャプチャされた顔画像のペアを照合することを目的とした、異種の顔認識で最も一般的なケースです。既存の深層学習ベースの方法は、NIR-VISの顔認識において目覚ましい進歩を遂げましたが、COVID-19の流行中に、ウイルスの拡散を防ぐために顔マスクを着用することになっているため、新たに出現した特定の問題に直面します。このタスクをNIR-VISマスク顔認識と定義し、NIRプローブ画像のマスク顔に問題があることを発見しました。まず、マスクされた顔データの欠如は、ネットワークトレーニングにとって難しい問題です。第二に、顔の部分(頬、口、鼻など)のほとんどがマスクによって完全に塞がれているため、大量の情報が失われます。第三に、ドメインギャップは残りの顔の部分にまだ存在します。このようなシナリオでは、既存の方法は、上記の問題によって引き起こされる大幅なパフォーマンスの低下に悩まされます。本論文では、トレーニングデータとトレーニング方法の観点から、NIR-VISマスク顔認識の課題に取り組むことを目指しています。具体的には、セミシャムネットワークの助けを借りて、2つのドメインの顔表現によって共有される相互情報量を最大化するための新しい異種トレーニング方法を提案します。さらに、3D顔再構成ベースのアプローチを使用して、既存のNIR画像からマスクされた顔を合成します。これらの手法に頼って、私たちのソリューションは、マスクのオクルージョンに対してもロバストなドメイン不変の顔表現を提供します。 3つのNIR-VIS顔データセットでの広範な実験は、私たちの方法の有効性とデータセット間の一般化能力を示しています。
Near-infrared to visible (NIR-VIS) face recognition is the most common case in heterogeneous face recognition, which aims to match a pair of face images captured from two different modalities. Existing deep learning based methods have made remarkable progress in NIR-VIS face recognition, while it encounters certain newly-emerged difficulties during the pandemic of COVID-19, since people are supposed to wear facial masks to cut off the spread of the virus. We define this task as NIR-VIS masked face recognition, and find it problematic with the masked face in the NIR probe image. First, the lack of masked face data is a challenging issue for the network training. Second, most of the facial parts (cheeks, mouth, nose etc.) are fully occluded by the mask, which leads to a large amount of loss of information. Third, the domain gap still exists in the remaining facial parts. In such scenario, the existing methods suffer from significant performance degradation caused by the above issues. In this paper, we aim to address the challenge of NIR-VIS masked face recognition from the perspectives of training data and training method. Specifically, we propose a novel heterogeneous training method to maximize the mutual information shared by the face representation of two domains with the help of semi-siamese networks. In addition, a 3D face reconstruction based approach is employed to synthesize masked face from the existing NIR image. Resorting to these practices, our solution provides the domain-invariant face representation which is also robust to the mask occlusion. Extensive experiments on three NIR-VIS face datasets demonstrate the effectiveness and cross-dataset-generalization capacity of our method.
updated: Wed Apr 14 2021 10:40:09 GMT+0000 (UTC)
published: Wed Apr 14 2021 10:40:09 GMT+0000 (UTC)
