StarNet: Targeted Computation for Object Detection in Point Clouds
 LiDARは高解像度の空間情報を提供するため、LiDAR点群からオブジェクトを検出することは自動運転車技術の重要な要素です。ポイントクラウド3Dオブジェクト検出に関する以前の研究では、従来のカメラ画像からの畳み込みアプローチを再利用しました。この作業では、点群データのスパースで3Dの性質を利用するために特別に設計されたStarNetと呼ばれるオブジェクト検出システムを紹介します。 StarNetは完全にポイントベースであり、グローバル情報を使用せず、データ依存のアンカーを持ち、学習領域の提案の代わりにサンプリングを使用します。この設計が、畳み込みベースラインと比較して、大規模なWaymo Open DatasetおよびKITTI検出データセットで競合または優れたパフォーマンスをもたらす方法を示します。特に、Waymo Open Datasetでの歩行者検出で、検出器が7 mAP以上の絶対mAPで競合ベースラインを上回る一方で、計算効率が高い方法を示します。再設計---つまり、ローカル情報のみを使用し、学習した提案の代わりにサンプリングを使用する---非常に柔軟で適応性の高いシステムにつながる方法を示します。また、事前およびヒューリスティックを使用して、関心のある分野に向けて提案をターゲットにする方法。最後に、前のフレームからの検出を使用して検出器の計算をターゲットにすることにより、追加の計算コストなしでパフォーマンスをさらに向上させる設計により、時間的コンテキストを組み込む方法を示します。
Detecting objects from LiDAR point clouds is an important component of self-driving car technology as LiDAR provides high resolution spatial information. Previous work on point-cloud 3D object detection has re-purposed convolutional approaches from traditional camera imagery. In this work, we present an object detection system called StarNet designed specifically to take advantage of the sparse and 3D nature of point cloud data. StarNet is entirely point-based, uses no global information, has data dependent anchors, and uses sampling instead of learned region proposals. We demonstrate how this design leads to competitive or superior performance on the large Waymo Open Dataset and the KITTI detection dataset, as compared to convolutional baselines. In particular, we show how our detector can outperform a competitive baseline on Pedestrian detection on the Waymo Open Dataset by more than 7 absolute mAP while being more computationally efficient. We show how our redesign---namely using only local information and using sampling instead of learned proposals---leads to a significantly more flexible and adaptable system: we demonstrate how we can vary the computational cost of a single trained StarNet without retraining, and how we can target proposals towards areas of interest with priors and heuristics. Finally, we show how our design allows for incorporating temporal context by using detections from previous frames to target computation of the detector, which leads to further improvements in performance without additional computational cost.
updated: Mon Dec 02 2019 22:15:26 GMT+0000 (UTC)
published: Thu Aug 29 2019 06:54:46 GMT+0000 (UTC)
