キーポイントベースのメソッドは、オブジェクト検出における比較的新しいパラダイムであり、アンカーボックスの必要性を排除し、簡素化された検出フレームワークを提供します。キーポイントベースのCornerNetは、シングルステージ検出器の間で最先端の精度を実現します。ただし、この精度では処理コストが高くなります。この作業では、効率的なキーポイントベースのオブジェクト検出の問題に取り組み、CornerNet-Liteを紹介します。 CornerNet-Liteは、CornerNetの2つの効率的なバリアントの組み合わせです。CornerNet-Saccadeは、注意メカニズムを使用して画像のすべてのピクセルを徹底的に処理する必要をなくし、CornerNet-Squeezeは新しいコンパクトなバックボーンアーキテクチャを導入します。これら2つのバリアントは共に、効率的なオブジェクト検出における2つの重要なユースケースに対処します。精度を犠牲にすることなく効率を向上させ、リアルタイム効率で精度を向上させます。 CornerNet-Saccadeはオフライン処理に適しており、COCOでCornerNetの効率を6.0倍、APの効率を1.0%改善しています。 CornerNet-Squeezeはリアルタイム検出に適しており、人気のリアルタイム検出器YOLOv3の効率と精度の両方を向上させます(COCO上のYOLOv3の39msで33.0%APと比較して、CornerNet-Squeezeの30msで34.4%APと比較)これらの貢献をまとめると、キーポイントベースの検出が処理効率を必要とするアプリケーションに役立つ可能性が初めて明らかになります。
Keypoint-based methods are a relatively new paradigm in object detection, eliminating the need for anchor boxes and offering a simplified detection framework. Keypoint-based CornerNet achieves state of the art accuracy among single-stage detectors. However, this accuracy comes at high processing cost. In this work, we tackle the problem of efficient keypoint-based object detection and introduce CornerNet-Lite. CornerNet-Lite is a combination of two efficient variants of CornerNet: CornerNet-Saccade, which uses an attention mechanism to eliminate the need for exhaustively processing all pixels of the image, and CornerNet-Squeeze, which introduces a new compact backbone architecture. Together these two variants address the two critical use cases in efficient object detection: improving efficiency without sacrificing accuracy, and improving accuracy at real-time efficiency. CornerNet-Saccade is suitable for offline processing, improving the efficiency of CornerNet by 6.0x and the AP by 1.0% on COCO. CornerNet-Squeeze is suitable for real-time detection, improving both the efficiency and accuracy of the popular real-time detector YOLOv3 (34.4% AP at 30ms for CornerNet-Squeeze compared to 33.0% AP at 39ms for YOLOv3 on COCO). Together these contributions for the first time reveal the potential of keypoint-based detection to be useful for applications requiring processing efficiency.