現在のマルチビュー 3D オブジェクト検出方法では、オーバーラップ領域内のオブジェクトを適切に検出できないことが多く、ネットワークのシーンの理解は単眼検出ネットワークの理解に制限されることがよくあります。さらに、オーバーラップ領域内のオブジェクトは、多くの場合、カメラの歪みによって大きく遮られたり、変形したりして、ドメイン シフトを引き起こします。この問題を軽減するために、次の 2 つのメイン モジュールを使用することを提案します。前者は、従来のステレオ視差推定方法を利用して、オーバーラップ領域から信頼できる視差情報を取得します。監督としての視差推定を考慮して、ネットワークを正則化して、双眼鏡画像の幾何学的ポテンシャルを十分に活用し、それに応じて全体的な検出精度を向上させることを提案します。さらに、後者のモジュールは、非重複領域と重複領域の間の表現上のギャップを最小限に抑えます。 nuScenesの大規模多視点3Dオブジェクト検出データを使用して、提案された方法の有効性を実証します。私たちの実験は、提案された方法が現在の最先端のモデル、つまり DETR3D と BEVDet よりも優れていることを示しています。
Current multi-view 3D object detection methods often fail to detect objects in the overlap region properly, and the networks' understanding of the scene is often limited to that of a monocular detection network. Moreover, objects in the overlap region are often largely occluded or suffer from deformation due to camera distortion, causing a domain shift. To mitigate this issue, we propose using the following two main modules: (1) Stereo Disparity Estimation for Weak Depth Supervision and (2) Adversarial Overlap Region Discriminator. The former utilizes the traditional stereo disparity estimation method to obtain reliable disparity information from the overlap region. Given the disparity estimates as supervision, we propose regularizing the network to fully utilize the geometric potential of binocular images and improve the overall detection accuracy accordingly. Further, the latter module minimizes the representational gap between non-overlap and overlapping regions. We demonstrate the effectiveness of the proposed method with the nuScenes large-scale multi-view 3D object detection data. Our experiments show that our proposed method outperforms current state-of-the-art models, i.e., DETR3D and BEVDet.