arXiv reaDer
ビューからラベルまで: 自己監視型 3D オブジェクト検出のためのマルチビューの一貫性
View-to-Label: Multi-View Consistency for Self-Supervised 3D Object Detection
自動運転車の場合、安全な運転は 3D 空間の環境を正しく認識する能力に大きく依存しているため、3D オブジェクト検出のタスクは認識の基本的な側面を表します。 3D センサーは正確な計量認識を実現しますが、単眼アプローチは幅広い用途で価値のあるコストと可用性の利点を享受できます。残念ながら、単眼法のトレーニングには膨大な量の注釈付きデータが必要です。興味深いことに、最近、自己教師ありアプローチが適用されて、トレーニング プロセスが容易になり、広く利用可能なラベルなしデータへのアクセスが可能になりました。関連する研究では LIDAR スキャンやステレオ画像などのさまざまな事前分布を利用していますが、そのような事前分布によっても有用性が制限されます。したがって、この研究では、マルチビュー制約と弱いラベルを活用して、純粋に RGB シーケンスのみから 3D オブジェクト検出を自己監視する新しいアプローチを提案します。 KITTI 3D データセットでの実験では、LIDAR スキャンまたはステレオ画像を使用した最先端の自己教師あり手法と同等のパフォーマンスが実証されました。
For autonomous vehicles, driving safely is highly dependent on the capability to correctly perceive the environment in 3D space, hence the task of 3D object detection represents a fundamental aspect of perception. While 3D sensors deliver accurate metric perception, monocular approaches enjoy cost and availability advantages that are valuable in a wide range of applications. Unfortunately, training monocular methods requires a vast amount of annotated data. Interestingly, self-supervised approaches have recently been successfully applied to ease the training process and unlock access to widely available unlabelled data. While related research leverages different priors including LIDAR scans and stereo images, such priors again limit usability. Therefore, in this work, we propose a novel approach to self-supervise 3D object detection purely from RGB sequences alone, leveraging multi-view constraints and weak labels. Our experiments on KITTI 3D dataset demonstrate performance on par with state-of-the-art self-supervised methods using LIDAR scans or stereo images.
updated: Mon May 29 2023 09:30:39 GMT+0000 (UTC)
published: Mon May 29 2023 09:30:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト