スケールのあいまいさは、単眼視覚オドメトリの基本的な問題です。典型的なソリューションには、ループクロージャの検出と環境情報のマイニングが含まれます。自動運転車などのアプリケーションでは、ループクロージャーが常に利用できるとは限らないため、環境から事前の知識をマイニングすることがより有望なアプローチになります。この論文では、地面からのカメラの高さが一定であると仮定して、地面の正確でロバストな推定を活用する軽量スケール回復フレームワークを開発します。このフレームワークには、地面上の高品質のポイントを選択するためのグラウンドポイント抽出アルゴリズムと、抽出されたグラウンドポイントをローカルスライディングウィンドウに結合するためのグラウンドポイント集約アルゴリズムが含まれています。集約されたデータに基づいて、RANSACベースのオプティマイザーを使用して最小二乗問題を解くことにより、スケールが最終的に回復されます。十分なデータと堅牢なオプティマイザにより、非常に正確なスケール回復が可能になります。 KITTIデータセットでの実験は、提案されたフレームワークが、回転エラーで競争力のあるパフォーマンスを維持しながら、変換エラーに関して最先端の精度を達成できることを示しています。軽量設計のため、私たちのフレームワークはデータセットで20Hzの高周波も示しています。
Scale ambiguity is a fundamental problem in monocular visual odometry. Typical solutions include loop closure detection and environment information mining. For applications like self-driving cars, loop closure is not always available, hence mining prior knowledge from the environment becomes a more promising approach. In this paper, with the assumption of a constant height of the camera above the ground, we develop a light-weight scale recovery framework leveraging an accurate and robust estimation of the ground plane. The framework includes a ground point extraction algorithm for selecting high-quality points on the ground plane, and a ground point aggregation algorithm for joining the extracted ground points in a local sliding window. Based on the aggregated data, the scale is finally recovered by solving a least-squares problem using a RANSAC-based optimizer. Sufficient data and robust optimizer enable a highly accurate scale recovery. Experiments on the KITTI dataset show that the proposed framework can achieve state-of-the-art accuracy in terms of translation errors, while maintaining competitive performance on the rotation error. Due to the light-weight design, our framework also demonstrates a high frequency of 20Hz on the dataset.