過去数年間で、ディープラーニング手法のおかげで3Dオブジェクト検出に大きな進歩が見られました。ただし、通常、優れたパフォーマンスを実現するために大量の高品質ラベルに依存しているため、多くの場合、人間のアノテーターによる時間と費用のかかる作業が必要になります。これに対処するために、LiDARポイントクラウドから3D(つまり、4Dラベル)で正確なオブジェクト軌道を生成する自動注釈パイプラインを提案します。一度に1つのフレームを考慮する以前の作品とは異なり、私たちのアプローチは、連続する点群を直接操作して、より豊富なオブジェクトの観測を組み合わせます。重要なアイデアは、4Dラベルを2つの部分に分解することです。オブジェクトの3Dサイズと、オブジェクトのポーズの経時変化を表すモーションパスです。より具体的には、初期化としてノイズが多いが取得しやすいオブジェクトトラックが与えられた場合、モデルは最初に時間的に集約された観測からオブジェクトサイズを推定し、次にフレームごとの観測と時間的なモーションキューの両方を考慮してモーションパスを調整します。大規模な運転データセットで提案された方法を検証し、私たちのアプローチがベースラインを大幅に上回っていることを示します。また、アノテーターインザループ設定でのアプローチの利点も紹介します。
In the past few years we have seen great advances in 3D object detection thanks to deep learning methods. However, they typically rely on large amounts of high-quality labels to achieve good performance, which often require time-consuming and expensive work by human annotators. To address this we propose an automatic annotation pipeline that generates accurate object trajectories in 3D (ie, 4D labels) from LiDAR point clouds. Different from previous works that consider single frames at a time, our approach directly operates on sequential point clouds to combine richer object observations. The key idea is to decompose the 4D label into two parts: the 3D size of the object, and its motion path describing the evolution of the object's pose through time. More specifically, given a noisy but easy-to-get object track as initialization, our model first estimates the object size from temporally aggregated observations, and then refines its motion path by considering both frame-wise observations as well as temporal motion cues. We validate the proposed method on a large-scale driving dataset and show that our approach achieves significant improvements over the baselines. We also showcase the benefits of our approach under the annotator-in-the-loop setting.