顔認識は、コンピュータビジョンコミュニティで最も基本的で長年のトピックの1つです。深い畳み込みニューラルネットワークと大規模なデータセットの最近の開発により、深い顔認識は目覚ましい進歩を遂げ、実際のアプリケーションで広く使用されています。自然な画像またはビデオフレームを入力として指定すると、エンドツーエンドの深い顔認識システムが顔の特徴を出力して認識します。これを実現するために、システム全体は通常、顔検出、顔の位置合わせ、顔の表現という3つの重要な要素で構築されています。顔検出は、画像またはフレーム内の顔を特定します。次に、顔の位置合わせを進めて、顔を標準ビューに調整し、正規化されたピクセルサイズにトリミングします。最後に、顔表現の段階で、前処理された顔から識別特徴が抽出されて認識されます。 3つの要素はすべて、深い畳み込みニューラルネットワークによって実現されます。この論文では、エンドツーエンドの深層顔認識のすべての要素の最近の進歩についての包括的な調査を提示します。これは、繁栄している深層学習技術によってそれらの機能が大幅に向上したためです。まず、エンドツーエンドの深い顔認識の概要を紹介します。これには、前述のように、顔検出、顔の位置合わせ、顔の表現が含まれます。次に、各要素のディープラーニングベースの進歩をそれぞれ確認し、最新のアルゴリズム設計、評価指標、データセット、パフォーマンス比較、既存の課題、将来の研究の有望な方向性など、多くの側面をカバーします。この調査が、エンドツーエンドの顔認識の全体像をよりよく理解し、体系的な方法でより深く探求するために役立つ考えをもたらすことを願っています。
Face recognition is one of the most fundamental and long-standing topics in computer vision community. With the recent developments of deep convolutional neural networks and large-scale datasets, deep face recognition has made remarkable progress and been widely used in the real-world applications. Given a natural image or video frame as input, an end-to-end deep face recognition system outputs the face feature for recognition. To achieve this, the whole system is generally built with three key elements: face detection, face alignment, and face representation. The face detection locates faces in the image or frame. Then, the face alignment is proceeded to calibrate the faces to a canonical view and crop them to a normalized pixel size. Finally, in the stage of face representation, the discriminative features are extracted from the preprocessed faces for recognition. All of the three elements are fulfilled by deep convolutional neural networks. In this paper, we present a comprehensive survey about the recent advances of every element of the end-to-end deep face recognition, since the thriving deep learning techniques have greatly improved the capability of them. To start with, we introduce an overview of the end-to-end deep face recognition, which, as mentioned above, includes face detection, face alignment, and face representation. Then, we review the deep learning based advances of each element, respectively, covering many aspects such as the up-to-date algorithm designs, evaluation metrics, datasets, performance comparison, existing challenges, and promising directions for future research. We hope this survey could bring helpful thoughts to one for better understanding of the big picture of end-to-end face recognition and deeper exploration in a systematic way.