arXiv reaDer
ConQueR: 3D オブジェクト検出のためのクエリ Contrast Voxel-DETR
ConQueR: Query Contrast Voxel-DETR for 3D Object Detection
DETR ベースの 3D 検出器は、検出パイプラインを簡素化し、直接的なスパース予測を実現できますが、そのパフォーマンスは、点群からの 3D オブジェクト検出の後処理を行う高密度検出器よりも遅れています。 DETR は通常、シーン内で GT よりも多くのクエリを採用します (たとえば、Waymo では 300 のクエリに対して 40 のオブジェクト)。推論中に必然的に多くの誤検知が発生します。このホワイト ペーパーでは、Query Contrast Voxel-DETR (ConQueR) という名前のシンプルで効果的なスパース 3D 検出器を提案して、困難な誤検知を排除し、より正確でスパースな予測を実現します。局所的に類似したクエリを区別するための明示的な監督が欠如しているために、ほとんどの誤検知が局所的な地域で高度に重複していることがわかります。したがって、一致しないすべてのクエリ予測に対して、クエリを最も一致する GT に向けて明示的に強化するクエリ コントラスト メカニズムを提案します。これは、各 GT の正と負の GT クエリ ペアの構築と、機能の類似性に基づいて負の GT クエリ ペアに対して正の GT クエリ ペアを強化する対照的な損失によって実現されます。 ConQueR は、希薄な 3D 検出器と密集した 3D 検出器のギャップを埋め、最大 60% の誤検知を減らします。当社の単一フレーム ConQueR は、挑戦的な Waymo Open Dataset 検証セットで新しい最先端 (sota) 71.6 mAPH/L2 を達成し、以前の sota メソッド (PV-RCNN++ など) を 2.0 mAPH/L2 以上上回っています。
Although DETR-based 3D detectors can simplify the detection pipeline and achieve direct sparse predictions, their performance still lags behind dense detectors with post-processing for 3D object detection from point clouds. DETRs usually adopt a larger number of queries than GTs (e.g., 300 queries v.s. 40 objects in Waymo) in a scene, which inevitably incur many false positives during inference. In this paper, we propose a simple yet effective sparse 3D detector, named Query Contrast Voxel-DETR (ConQueR), to eliminate the challenging false positives, and achieve more accurate and sparser predictions. We observe that most false positives are highly overlapping in local regions, caused by the lack of explicit supervision to discriminate locally similar queries. We thus propose a Query Contrast mechanism to explicitly enhance queries towards their best-matched GTs over all unmatched query predictions. This is achieved by the construction of positive and negative GT-query pairs for each GT, and a contrastive loss to enhance positive GT-query pairs against negative ones based on feature similarities. ConQueR closes the gap of sparse and dense 3D detectors, and reduces up to ~60% false positives. Our single-frame ConQueR achieves new state-of-the-art (sota) 71.6 mAPH/L2 on the challenging Waymo Open Dataset validation set, outperforming previous sota methods (e.g., PV-RCNN++) by over 2.0 mAPH/L2.
updated: Wed Dec 14 2022 15:44:12 GMT+0000 (UTC)
published: Wed Dec 14 2022 15:44:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト