RefineFace: Refinement Neural Network for High Performance Face Detection
  近年、顔検出は大きな進歩を遂げています。ただし、特に多くの小さな顔が存在する場合、高性能な顔検出は依然として非常に難しい問題のままです。このホワイトペーパーでは、高性能を実現するためのシングルショット改良顔検出器、すなわち、RefineFaceを紹介します。具体的には、選択的2ステップ回帰(STR)、選択的2ステップ分類(STC)、スケール対応マージン損失(SML)、機能監視モジュール(FSM)、および受容野強化(RFE)の5つのモジュールで構成されます。高い位置精度の回帰機能を強化するために、STRは、高レベル検出レイヤーからアンカーの位置とサイズを粗調整し、後続のリグレッサーの初期化を改善します。高いリコール効率のために分類能力を向上させるために、STCは最初に低レベル検出レイヤーから最も単純なネガをフィルタリングして後続の分類子の検索スペースを削減し、次にSMLを適用してさまざまなスケールで背景と顔をよりよく区別し、FSMを導入してバックボーンは、分類のためのより識別的な機能を学習します。その上、RFEは、いくつかの極端なポーズで顔をよりよく捉えるために、より多様な受容野を提供するために提示されます。 WIDER FACE、AFW、PASCAL Face、FDDB、MAFAで行われた広範な実験により、この方法が最先端の結果を達成し、VGA解像度画像用のResNet-18で$ 37.3 $ FPSで実行されることが実証されています。
Face detection has achieved significant progress in recent years. However, high performance face detection still remains a very challenging problem, especially when there exists many tiny faces. In this paper, we present a single-shot refinement face detector namely RefineFace to achieve high performance. Specifically, it consists of five modules: Selective Two-step Regression (STR), Selective Two-step Classification (STC), Scale-aware Margin Loss (SML), Feature Supervision Module (FSM) and Receptive Field Enhancement (RFE). To enhance the regression ability for high location accuracy, STR coarsely adjusts locations and sizes of anchors from high level detection layers to provide better initialization for subsequent regressor. To improve the classification ability for high recall efficiency, STC first filters out most simple negatives from low level detection layers to reduce search space for subsequent classifier, then SML is applied to better distinguish faces from background at various scales and FSM is introduced to let the backbone learn more discriminative features for classification. Besides, RFE is presented to provide more diverse receptive field to better capture faces in some extreme poses. Extensive experiments conducted on WIDER FACE, AFW, PASCAL Face, FDDB, MAFA demonstrate that our method achieves state-of-the-art results and runs at $37.3$ FPS with ResNet-18 for VGA-resolution images.
updated: Tue Sep 10 2019 09:58:50 GMT+0000 (UTC)
published: Tue Sep 10 2019 09:58:50 GMT+0000 (UTC)
