arXiv reaDer
BEVStereo++: ダイナミック テンポラル ステレオによるマルチビュー 3D オブジェクト検出における正確な深度推定
BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection via Dynamic Temporal Stereo
奥行認識の固有の曖昧さに制限されている現代のマルチビュー 3D オブジェクト検出方法は、パフォーマンスのボトルネックに陥っています。直感的には、時間的マルチビュー ステレオ (MVS) テクノロジを活用することは、このあいまいさに取り組むための自然な知識です。ただし、MVS の従来の試みには、3D オブジェクト検出シーンに適用する場合に 2 つの制限があります。 2) オブジェクトが頻繁に移動する屋外のシナリオに対処することは困難です。この目的のために、BEVStereo++ を提案します。動的な時間的ステレオ戦略を導入することにより、BEVStereo++ は、これら 2 つのシナリオを処理する際に時間的ステレオを導入することによってもたらされる害を減らすことができます。さらに一歩進んで、モーション コンペンセーション モジュールとロング シーケンス フレーム フュージョンを BEVStereo++ に適用すると、パフォーマンスがさらに向上し、エラーが減少します。追加機能なしで、BEVStereo++ は Waymo と nuScenes データセットの両方で最先端 (SOTA) を実現します。
Bounded by the inherent ambiguity of depth perception, contemporary multi-view 3D object detection methods fall into the performance bottleneck. Intuitively, leveraging temporal multi-view stereo (MVS) technology is the natural knowledge for tackling this ambiguity. However, traditional attempts of MVS has two limitations when applying to 3D object detection scenes: 1) The affinity measurement among all views suffers expensive computational cost; 2) It is difficult to deal with outdoor scenarios where objects are often mobile. To this end, we propose BEVStereo++: by introducing a dynamic temporal stereo strategy, BEVStereo++ is able to cut down the harm that is brought by introducing temporal stereo when dealing with those two scenarios. Going one step further, we apply Motion Compensation Module and long sequence Frame Fusion to BEVStereo++, which shows further performance boosting and error reduction. Without bells and whistles, BEVStereo++ achieves state-of-the-art(SOTA) on both Waymo and nuScenes dataset.
updated: Sun Apr 09 2023 08:04:26 GMT+0000 (UTC)
published: Sun Apr 09 2023 08:04:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト