MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization
 シーンの理解に重要な役割を果たす実際の3D空間でオブジェクトを検出してローカライズすることは、画像の投影中に幾何情報が失われるため、RGB画像が1つしかない場合は特に困難です。観測された2D投影と観測されていない深さの両方の次元で幾何学的推論を介して単眼RGB画像から無モーダル3Dオブジェクトを検出するためのMonoGRNetを提案します。 MonoGRNetは、2Dオブジェクト検出、インスタンス深度推定(IDE)、3Dローカリゼーション、ローカルコーナー回帰を担当する4つのタスク固有のサブネットワークで構成される単一の統合ネットワークです。ピクセルごとのアノテーションを必要とするピクセルレベルの深度推定とは異なり、疎な監視を使用して、ターゲットとなる3Dバウンディングボックスの中心の深度を直接予測する新しいIDE手法を提案します。 3Dのローカリゼーションは、水平および垂直次元での位置を推定することによってさらに実現されます。最後に、MonoGRNetは、グローバルコンテキストで3Dバウンディングボックスの位置とポーズを最適化することによって共同で学習されます。 MonoGRNetが挑戦的なデータセットで最先端のパフォーマンスを実現することを実証します。
Detecting and localizing objects in the real 3D space, which plays a crucial role in scene understanding, is particularly challenging given only a single RGB image due to the geometric information loss during imagery projection. We propose MonoGRNet for the amodal 3D object detection from a monocular RGB image via geometric reasoning in both the observed 2D projection and the unobserved depth dimension. MonoGRNet is a single, unified network composed of four task-specific subnetworks, responsible for 2D object detection, instance depth estimation (IDE), 3D localization and local corner regression. Unlike the pixel-level depth estimation that needs per-pixel annotations, we propose a novel IDE method that directly predicts the depth of the targeting 3D bounding box's center using sparse supervision. The 3D localization is further achieved by estimating the position in the horizontal and vertical dimensions. Finally, MonoGRNet is jointly learned by optimizing the locations and poses of the 3D bounding boxes in the global context. We demonstrate that MonoGRNet achieves state-of-the-art performance on challenging datasets.
updated: Tue Mar 31 2020 14:52:26 GMT+0000 (UTC)
published: Mon Nov 26 2018 09:36:40 GMT+0000 (UTC)
