複数オブジェクトの追跡に取り組む方法では、検知エリア内のターゲットの数を推定するとともに、その連続状態を推定する必要があります。既存の方法の大半はデータの関連付けに焦点を当てていますが、正確な状態(3Dポーズ)推定は、重心または(3D)バウンディングボックスでターゲットを近似することによって大まかにのみ推定されることがよくあります。ただし、自動車のシナリオでは、周囲のエージェントの動きの認識が重要であり、車両の近距離の不正確さが壊滅的な結果をもたらす可能性があります。この作業では、正確な3Dトラック状態推定に焦点を当て、部分的に観測されたオブジェクトのオブジェクト中心の相対運動推定のための学習ベースのアプローチを提案します。ターゲットを重心で近似する代わりに、このアプローチでは、オブジェクトのノイズの多い3Dポイントセグメントを利用して、モーションを推定できます。そのために、点群の整列を学習する、シンプルでありながら効果的で効率的なネットワーク\ methodを提案します。 2つの異なるデータセットに対する評価は、この方法が計算コストが高く、グローバルな3D登録方法よりもはるかに効率的であることを示しています。データ、コード、モデルをhttps://www.vision.rwth-aachen.de/page/alignnetで利用できるようにします。
Methods tackling multi-object tracking need to estimate the number of targets in the sensing area as well as to estimate their continuous state. While the majority of existing methods focus on data association, precise state (3D pose) estimation is often only coarsely estimated by approximating targets with centroids or (3D) bounding boxes. However, in automotive scenarios, motion perception of surrounding agents is critical and inaccuracies in the vehicle close-range can have catastrophic consequences. In this work, we focus on precise 3D track state estimation and propose a learning-based approach for object-centric relative motion estimation of partially observed objects. Instead of approximating targets with their centroids, our approach is capable of utilizing noisy 3D point segments of objects to estimate their motion. To that end, we propose a simple, yet effective and efficient network, \method, that learns to align point clouds. Our evaluation on two different datasets demonstrates that our method outperforms computationally expensive, global 3D registration methods while being significantly more efficient. We make our data, code, and models available at https://www.vision.rwth-aachen.de/page/alignnet.