You Better Look Twice:計算量を減らして正確な検出器を設計するための新しい視点
You Better Look Twice: a new perspective for designing accurate detectors with reduced computations
一般的なオブジェクト検出器は、画像から特徴を均一に抽出する強力なバックボーンを使用して、膨大な量のオブジェクトタイプの検出を可能にします。ただし、特定のオブジェクトタイプ用に開発されたオブジェクト検出アプリケーションでこのようなバックボーンを利用すると、大量のバックグラウンドを不必要に過剰に処理する可能性があります。さらに、それらはオブジェクトのスケールにとらわれないため、すべての画像領域を同じ解像度で冗長的に処理します。この作業では、BLT-netを紹介します。これは、大量の背景とさまざまなスケールのオブジェクトを含む画像を処理するように設計された、新しい低計算の2段階オブジェクト検出アーキテクチャです。 BLT-netは、非常に軽量な第1段階を使用してオブジェクトを背景から分離することにより、計算を削減します。次に、BLT-netは、取得した提案を効率的にマージして、処理されたバックグラウンドをさらに減らし、次にそれらの解像度を動的に減らして、計算を最小限に抑えます。結果として得られる画像の提案は、高精度のモデルによって第2段階で処理されます。オブジェクトのサイズが異なり、画像の解像度が高く、オブジェクト検出をリアルタイムで実行する必要がある歩行者検出の問題に関するアーキテクチャを示します。精度の低下が小さいため、私たちの設計では、主要な歩行者検出器に関して、CitypersonsおよびCaltechデータセットの計算がx4〜x7の係数で削減されることを示しています。この方法は、かなりの量の背景があり、オブジェクトサイズを変化させて計算を減らすシーンで、他のオブジェクト検出アプリケーションに適用できます。
General object detectors use powerful backbones that uniformly extract features from images for enabling detection of a vast amount of object types. However, utilization of such backbones in object detection applications developed for specific object types can unnecessarily over-process an extensive amount of background. In addition, they are agnostic to object scales, thus redundantly process all image regions at the same resolution. In this work we introduce BLT-net, a new low-computation two-stage object detection architecture designed to process images with a significant amount of background and objects of variate scales. BLT-net reduces computations by separating objects from background using a very lite first-stage. BLT-net then efficiently merges obtained proposals to further decrease processed background and then dynamically reduces their resolution to minimize computations. Resulting image proposals are then processed in the second-stage by a highly accurate model. We demonstrate our architecture on the pedestrian detection problem, where objects are of different sizes, images are of high resolution and object detection is required to run in real-time. We show that our design reduces computations by a factor of x4-x7 on the Citypersons and Caltech datasets with respect to leading pedestrian detectors, on account of a small accuracy degradation. This method can be applied on other object detection applications in scenes with a considerable amount of background and variate object sizes to reduce computations.
updated: Tue Aug 03 2021 07:26:26 GMT+0000 (UTC)
published: Wed Jul 21 2021 12:39:51 GMT+0000 (UTC)
