arXiv reaDer
グローバルからローカルへの 3D 再構成による 2D 教師付き単眼 3D オブジェクト検出
2D Supervised Monocular 3D Object Detection by Global-to-Local 3D Reconstruction
ビッグモデル時代の到来により、データの需要がより重要になってきました。特に単眼の 3D オブジェクト検出では、高価な手動アノテーションがさらなる開発を制限する可能性があります。既存の研究では、LiDAR モダリティを利用して弱教師アルゴリズムを研究し、通常のビデオには適用できない 3D 擬似ラベルを生成しています。この論文では、2D 教師付き単眼 3D 物体検出のためのグローバルからローカルへの 3D 再構成のアイデアを活用した、BA^2-Det と呼ばれる新しいパラダイムを提案します。具体的には、グローバル バンドル調整 (BA) を使用したシーンレベルのグローバル再構成によって単眼ビデオから 3D 構造を復元し、DoubleClustering アルゴリズムによってオブジェクト クラスターを取得します。 GBA-Learner は、グローバル BA で完全に再構成されたオブジェクトから学習して、遮蔽されたオブジェクトの疑似ラベルを予測します。最後に、生成された 3D 擬似ラベルを移動オブジェクトに一般化するために、オブジェクト中心のローカル BA を使用して LBA 学習者をトレーニングします。大規模な Waymo Open Dataset での実験では、BA^2-Det のパフォーマンスが 10% ビデオでトレーニングされた完全教師あり BA-Det と同等であり、一部の先駆者の完全教師手法をも上回るパフォーマンスを示しています。また、複雑なシーンでオープンセット 3D オブジェクトを検出するための BA^2-Det の大きな可能性も示します。コードが利用可能になります。プロジェクトページ: https://ba2det.site 。
With the advent of the big model era, the demand for data has become more important. Especially in monocular 3D object detection, expensive manual annotations potentially limit further developments. Existing works have investigated weakly supervised algorithms with the help of LiDAR modality to generate 3D pseudo labels, which cannot be applied to ordinary videos. In this paper, we propose a novel paradigm, termed as BA^2-Det, leveraging the idea of global-to-local 3D reconstruction for 2D supervised monocular 3D object detection. Specifically, we recover 3D structures from monocular videos by scene-level global reconstruction with global bundle adjustment (BA) and obtain object clusters by the DoubleClustering algorithm. Learning from completely reconstructed objects in global BA, GBA-Learner predicts pseudo labels for occluded objects. Finally, we train an LBA-Learner with object-centric local BA to generalize the generated 3D pseudo labels to moving objects. Experiments on the large-scale Waymo Open Dataset show that the performance of BA^2-Det is on par with the fully-supervised BA-Det trained with 10% videos and even outperforms some pioneer fully-supervised methods. We also show the great potential of BA^2-Det for detecting open-set 3D objects in complex scenes. The code will be made available. Project page: https://ba2det.site .
updated: Thu Jun 08 2023 17:58:57 GMT+0000 (UTC)
published: Thu Jun 08 2023 17:58:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト