畳み込みニューラルネットワークの採用により、オブジェクト検出タスクのパフォーマンスが大幅に向上しました。ただし、既存の検出器をビデオの連続フレームに適用すると、オブジェクトの瞬間的な誤検出が発生することがよくあります。つまり、オブジェクトは他のすべてのフレームで正しく検出されますが、いくつかのフレームで例外的に検出されません。このホワイトペーパーでは、このようなミス検出が発生するメカニズムを分析します。アンカーボックスに基づく検出器の最も一般的なクラスについて、以下を示します。i)モーションブラー、オクルージョン、バックグラウンドクラッターなどの明らかな原因に加えて、残りのミス検出の大部分は不適切なもので説明できます。アンカーボックスの境界での検出器の動作。およびii)これは、検出器のトレーニング時に候補アンカーボックスから陽性サンプルを選択する方法を改善することにより修正できます。
The employment of convolutional neural networks has led to significant performance improvement on the task of object detection. However, when applying existing detectors to continuous frames in a video, we often encounter momentary miss-detection of objects, that is, objects are undetected exceptionally at a few frames, although they are correctly detected at all other frames. In this paper, we analyze the mechanism of how such miss-detection occurs. For the most popular class of detectors that are based on anchor boxes, we show the followings: i) besides apparent causes such as motion blur, occlusions, background clutters, etc., the majority of remaining miss-detection can be explained by an improper behavior of the detectors at boundaries of the anchor boxes; and ii) this can be rectified by improving the way of choosing positive samples from candidate anchor boxes when training the detectors.