モバイルGPU推論用に開発された軽量で高性能な顔検出器BlazeFaceを紹介する。BlazeFaceは、フラッグシップデバイス上で200-1000FPS以上の速度で動作する。この超リアルタイム性能により、2D/3D顔のキーポイントやジオメトリの推定、顔の特徴や表情の分類、顔領域のセグメンテーションなど、タスク固有のモデルの入力として正確な顔領域を必要とする拡張現実のパイプラインに適用することができる。我々の貢献には、MobileNetV1/V2から着想を得たが、MobileNetV1/V2とは異なる軽量な特徴抽出ネットワーク、シングルショットマルチボックス検出器(SSD)から修正されたGPUフレンドリーなアンカースキーム、非最大抑制に代わる改善されたタイ解像度戦略が含まれている。
We present BlazeFace, a lightweight and well-performing face detector tailored for mobile GPU inference. It runs at a speed of 200-1000+ FPS on flagship devices. This super-realtime performance enables it to be applied to any augmented reality pipeline that requires an accurate facial region of interest as an input for task-specific models, such as 2D/3D facial keypoint or geometry estimation, facial features or expression classification, and face region segmentation. Our contributions include a lightweight feature extraction network inspired by, but distinct from MobileNetV1/V2, a GPU-friendly anchor scheme modified from Single Shot MultiBox Detector (SSD), and an improved tie resolution strategy alternative to non-maximum suppression.