現在の3Dオブジェクト認識の研究は、主にリアルタイムのオンボードシナリオに焦点を当てていますが、機械を使用して高品質の3Dラベルを自動的に生成するなど、ほとんど調査されていない多くのオフボードの知覚のユースケースがあります。既存の3Dオブジェクト検出器は、入力と速度の制約が限られているため、オフボードでの使用に関する高品質の要件を満たすことができません。本論文では、点群シーケンスデータを使用した新しいオフボード3Dオブジェクト検出パイプラインを提案します。さまざまなフレームがオブジェクトの補完的なビューをキャプチャすることを観察し、マルチフレームオブジェクト検出と新しいオブジェクト中心の改良モデルの両方を通じて時間ポイントを利用するようにオフボード検出器を設計します。 Waymo Open Datasetで評価された、3D Auto Labelingという名前のパイプラインは、最先端のオンボード検出器およびオフボードベースラインと比較して大幅な向上を示しています。その性能は、人間のラベルの研究を通じて検証された人間のラベルと同等です。さらなる実験は、半教師あり学習のための自動ラベルの適用を示し、さまざまな設計の選択を検証するための広範な分析を提供します。
While current 3D object recognition research mostly focuses on the real-time, onboard scenario, there are many offboard use cases of perception that are largely under-explored, such as using machines to automatically generate high-quality 3D labels. Existing 3D object detectors fail to satisfy the high-quality requirement for offboard uses due to the limited input and speed constraints. In this paper, we propose a novel offboard 3D object detection pipeline using point cloud sequence data. Observing that different frames capture complementary views of objects, we design the offboard detector to make use of the temporal points through both multi-frame object detection and novel object-centric refinement models. Evaluated on the Waymo Open Dataset, our pipeline named 3D Auto Labeling shows significant gains compared to the state-of-the-art onboard detectors and our offboard baselines. Its performance is even on par with human labels verified through a human label study. Further experiments demonstrate the application of auto labels for semi-supervised learning and provide extensive analysis to validate various design choices.