マルチビュー3Dオブジェクト検出タスクでは、重なり合う画像領域に対する視差監視により、全体的な検出パフォーマンスが大幅に向上します。ただし、現在のマルチビュー3Dオブジェクト検出方法では、オーバーラップ領域内のオブジェクトを適切に検出できないことが多く、ネットワークによるシーンの理解は、単眼検出ネットワークの理解に限定されることがよくあります。この問題を軽減するために、従来のステレオ視差推定方法を適用して、オーバーラップ領域の信頼できる視差情報を取得することをお勧めします。監視としての視差推定を考慮して、双眼画像の幾何学的ポテンシャルを十分に活用するためにネットワークを正規化し、全体的な検出精度を向上させることを提案します。さらに、敵対的オーバーラップ領域弁別器を使用することを提案します。これは、オブジェクトが大部分が閉塞されたり、カメラの歪みによる変形を受けてドメインシフトが発生したりする非オーバーラップ領域とオーバーラップ領域の間の表現のギャップを最小限に抑えるようにトレーニングされています。 nuScenesと呼ばれる大規模なマルチビュー3Dオブジェクト検出ベンチマークを使用して、提案された方法の有効性を示します。私たちの実験は、提案された方法が現在の最先端の方法よりも優れていることを示しています。
In multi-view 3D object detection tasks, disparity supervision over overlapping image regions substantially improves the overall detection performance. However, current multi-view 3D object detection methods often fail to detect objects in the overlap region properly, and the network's understanding of the scene is often limited to that of a monocular detection network. To mitigate this issue, we advocate for applying the traditional stereo disparity estimation method to obtain reliable disparity information for the overlap region. Given the disparity estimates as a supervision, we propose to regularize the network to fully utilize the geometric potential of binocular images, and improve the overall detection accuracy. Moreover, we propose to use an adversarial overlap region discriminator, which is trained to minimize the representational gap between non-overlap regions and overlapping regions where objects are often largely occluded or suffer from deformation due to camera distortion, causing a domain shift. We demonstrate the effectiveness of the proposed method with the large-scale multi-view 3D object detection benchmark, called nuScenes. Our experiment shows that our proposed method outperforms the current state-of-the-art methods.