現在の自動運転車 (AV) ベンチマークには、特に大規模な LIDAR データで 3D 検出器をトレーニングするための高度な技術が組み込まれています。驚くべきことに、セマンティック クラス ラベルは自然にロングテール分布に従いますが、現代のベンチマークは少数の一般的なクラス (歩行者や自動車など) のみに焦点を当てており、テール内の多くのまれなクラス (瓦礫やベビーカーなど) を無視しています。ただし、AV は安全な動作を確保するために、まれなクラスを検出する必要があります。さらに、意味クラスは階層内で編成されることが多く、たとえば、子供や建設作業員などの末尾クラスはおそらく歩行者のサブクラスです。ただし、このような階層関係は無視されることが多く、パフォーマンスの誤解を招き、アルゴリズム革新の機会を逃す可能性があります。私たちは、尾部を含むすべてのクラスを評価する Long-Tailed 3D Detection (LT3D) の問題を正式に研究することで、これらの課題に対処します。私たちは、CenterPoint や PointPillars などの一般的な 3D 検出コードベースを評価して革新し、LT3D に適応させます。私たちは、一般クラスと希少クラス間の特徴共有を促進する階層損失と、階層に関する「合理的な」間違い (子供を大人と間違えるなど) に部分的なクレジットを与える改善された検出メトリクスを開発します。最後に、RGB 画像と LiDAR のマルチモーダル融合によって、きめの細かいテール クラスの精度が特に向上することを指摘します。簡単に言うと、細かく粒度の小さなクラスをスパース (ライダー) ジオメトリだけから識別するのは困難であり、ロングテール 3D 検出にはマルチモーダル キューが重要であることを示唆しています。私たちの修正により、すべてのクラスの精度が平均 5% AP 向上し、レアなクラスの AP が劇的に向上しました (例: ベビーカーの AP が 3.6 から 31.6 に向上)。私たちのコードは https://github.com/neeharperi/LT3D で入手できます。
Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for training 3D detectors, particularly on large-scale lidar data. Surprisingly, although semantic class labels naturally follow a long-tailed distribution, contemporary benchmarks focus on only a few common classes (e.g., pedestrian and car) and neglect many rare classes in-the-tail (e.g., debris and stroller). However, AVs must still detect rare classes to ensure safe operation. Moreover, semantic classes are often organized within a hierarchy, e.g., tail classes such as child and construction-worker are arguably subclasses of pedestrian. However, such hierarchical relationships are often ignored, which may lead to misleading estimates of performance and missed opportunities for algorithmic innovation. We address these challenges by formally studying the problem of Long-Tailed 3D Detection (LT3D), which evaluates on all classes, including those in-the-tail. We evaluate and innovate upon popular 3D detection codebases, such as CenterPoint and PointPillars, adapting them for LT3D. We develop hierarchical losses that promote feature sharing across common-vs-rare classes, as well as improved detection metrics that award partial credit to "reasonable" mistakes respecting the hierarchy (e.g., mistaking a child for an adult). Finally, we point out that fine-grained tail class accuracy is particularly improved via multimodal fusion of RGB images with LiDAR; simply put, small fine-grained classes are challenging to identify from sparse (lidar) geometry alone, suggesting that multimodal cues are crucial to long-tailed 3D detection. Our modifications improve accuracy by 5% AP on average for all classes, and dramatically improve AP for rare classes (e.g., stroller AP improves from 3.6 to 31.6)! Our code is available at https://github.com/neeharperi/LT3D