これまでの最先端のリアルタイムオブジェクト検出器は、大量のデータの処理やリソースに制限のあるシナリオでは非常に高価なGPUで報告されています。したがって、CPUのみのデバイスの高効率オブジェクト検出器は、業界で緊急に必要とされています。ネットワークの浮動小数点演算(FLOP)は、CPUデバイスの実行速度に厳密に比例していないため、正確に「高速」かつ「正確な」オブジェクト検出器の設計を促します。分類ネットワークと検出バックボーンの間の懸念のギャップを調査し、効率的なネットワークの設計原則に従って、検出タスクに不可欠な低レベル機能の大きな受容フィールドと広い次元を持つ軽量の残差のようなバックボーンを提案します。それに対応して、バックボーン機能に合わせてライトヘッド検出部も設計しています。さらに、現在の1段階検出器のトレーニング戦略の欠点を分析することにより、3つの直交トレーニング戦略も提案します。IOUガイド付き損失、クラス対応の重み付け方法、バランスの取れたマルチタスクトレーニングアプローチです。余計なものはありませんが、提案されているRefineDetLiteは、シングルスレッドCPUで130 ms / picの速度でMSCOCOベンチマークで26.8 mAPを達成します。明らかな速度低下なしに、提案されたすべてのトレーニング戦略を統合することにより、検出精度をさらに29.6 mAPに高めることができます。
Previous state-of-the-art real-time object detectors have been reported on GPUs which are extremely expensive for processing massive data and in resource-restricted scenarios. Therefore, high efficiency object detectors on CPU-only devices are urgently-needed in industry. The floating-point operations (FLOPs) of networks are not strictly proportional to the running speed on CPU devices, which inspires the design of an exactly "fast" and "accurate" object detector. After investigating the concern gaps between classification networks and detection backbones, and following the design principles of efficient networks, we propose a lightweight residual-like backbone with large receptive fields and wide dimensions for low-level features, which are crucial for detection tasks. Correspondingly, we also design a light-head detection part to match the backbone capability. Furthermore, by analyzing the drawbacks of current one-stage detector training strategies, we also propose three orthogonal training strategies---IOU-guided loss, classes-aware weighting method and balanced multi-task training approach. Without bells and whistles, our proposed RefineDetLite achieves 26.8 mAP on the MSCOCO benchmark at a speed of 130 ms/pic on a single-thread CPU. The detection accuracy can be further increased to 29.6 mAP by integrating all the proposed training strategies, without apparent speed drop.