arXiv reaDer
複数粒度のコンテキスト特徴量集約によるキャプション監視による顔認識の向上
Improving Face Recognition from Caption Supervision with Multi-Granular Contextual Feature Aggregation
市販の(COTS)顔認識(FR)システムのパフォーマンスを向上させるための新しいフレームワークとして、キャプションガイド付き顔認識(CGFR)を紹介します。ソフトバイオメトリクス(顔のマーク、性別、年齢など)を顔画像と組み合わせるのとは対照的に、この研究では、顔検査官によって提供される顔の説明を補助情報の一部として使用します。ただし、モダリティの不均一性により、テキストと顔の特徴を直接融合してパフォーマンスを向上させることは、両方とも異なる埋め込み空間に存在するため、非常に困難です。この論文では、きめ細かい単語領域の相互作用とグローバルな画像とキャプションの関連付けを効果的に活用することで、この問題に対処するコンテキスト特徴集約モジュール (CFAM) を提案します。具体的には、CFAM は、画像とテキストの特徴間のモダリティ内およびモダリティ間の関係をそれぞれ改善するために、セルフ アテンション スキームとクロス アテンション スキームを採用しています。さらに、コンテキスト埋め込みを更新することで、事前トレーニングされた BERT エンコーダーのテキスト特徴を洗練するテキスト特徴洗練モジュール (TFRM) を設計します。このモジュールは、クロスモーダル射影損失を使用してテキスト特徴の識別力を強化し、視覚的意味論的位置合わせ損失を組み込むことによって単語とキャプションの埋め込みを視覚特徴と再調整します。提案された CGFR フレームワークを 2 つの顔認識モデル (ArcFace と AdaFace) に実装し、マルチモーダル CelebA-HQ データセットでそのパフォーマンスを評価しました。私たちのフレームワークは、1:1 検証と 1:N 識別プロトコルの両方で ArcFace のパフォーマンスを大幅に向上させます。
We introduce caption-guided face recognition (CGFR) as a new framework to improve the performance of commercial-off-the-shelf (COTS) face recognition (FR) systems. In contrast to combining soft biometrics (eg., facial marks, gender, and age) with face images, in this work, we use facial descriptions provided by face examiners as a piece of auxiliary information. However, due to the heterogeneity of the modalities, improving the performance by directly fusing the textual and facial features is very challenging, as both lie in different embedding spaces. In this paper, we propose a contextual feature aggregation module (CFAM) that addresses this issue by effectively exploiting the fine-grained word-region interaction and global image-caption association. Specifically, CFAM adopts a self-attention and a cross-attention scheme for improving the intra-modality and inter-modality relationship between the image and textual features, respectively. Additionally, we design a textual feature refinement module (TFRM) that refines the textual features of the pre-trained BERT encoder by updating the contextual embeddings. This module enhances the discriminative power of textual features with a cross-modal projection loss and realigns the word and caption embeddings with visual features by incorporating a visual-semantic alignment loss. We implemented the proposed CGFR framework on two face recognition models (ArcFace and AdaFace) and evaluated its performance on the Multi-Modal CelebA-HQ dataset. Our framework significantly improves the performance of ArcFace in both 1:1 verification and 1:N identification protocol.
updated: Sun Aug 13 2023 23:52:15 GMT+0000 (UTC)
published: Sun Aug 13 2023 23:52:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト