点群データからの正確な3Dオブジェクトの検出と定位のための2段階モデルであるPatch Refinementを導入します。パッチ調整は、2つの独立してトレーニングされたボクセルネットベースのネットワーク、Region Proposal Network(RPN)とLocal Refinement Network(LRN)で構成されます。検出タスクを、予備の鳥瞰図(BEV)検出ステップとローカル3D検出ステップに分解します。 RPNによって提案されたBEVの位置に基づいて、小さなポイントクラウドサブセット(「パッチ」)を抽出します。その後、LRNによって処理されます。これは、各パッチの小さな領域によるメモリ制約によって制限されません。したがって、より高いボクセル解像度のエンコーディングをローカルに適用できます。 LRNが独立しているため、追加の強化技術を使用でき、各シーンのごく一部しか使用しないため、効率的な回帰集中トレーニングが可能です。 KITTI 3Dオブジェクト検出ベンチマークで評価された、2019年1月28日からの提出は、利用可能なトレーニングデータの50%のみとLiDAR情報のみを使用して、クラスカーの3つの困難すべてについて以前のすべてのエントリよりも優れていました。
We introduce Patch Refinement a two-stage model for accurate 3D object detection and localization from point cloud data. Patch Refinement is composed of two independently trained Voxelnet-based networks, a Region Proposal Network (RPN) and a Local Refinement Network (LRN). We decompose the detection task into a preliminary Bird's Eye View (BEV) detection step and a local 3D detection step. Based on the proposed BEV locations by the RPN, we extract small point cloud subsets ("patches"), which are then processed by the LRN, which is less limited by memory constraints due to the small area of each patch. Therefore, we can apply encoding with a higher voxel resolution locally. The independence of the LRN enables the use of additional augmentation techniques and allows for an efficient, regression focused training as it uses only a small fraction of each scene. Evaluated on the KITTI 3D object detection benchmark, our submission from January 28, 2019, outperformed all previous entries on all three difficulties of the class car, using only 50 % of the available training data and only LiDAR information.