Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts
複雑な道路シーンの単一の遠近法RGB画像を入力として取得するエンドツーエンドネットワークを提案し、遠近法空間と上面パラメトリック空間でオクルージョン理由のあるレイアウトを生成します。パースペクティブビューでのセマンティックラベルなどの高密度の監視を必要とする以前の作業とは対照的に、私たちの方法で必要な人間の注釈は、より安価で曖昧さの少ないパラメトリック属性用です。この困難な課題を解決するために、私たちの設計は、オクルージョン推論、幾何学的変換、およびセマンティック抽象化を学習するための誘導バイアスを組み込んだモジュールで構成されています。各モジュールは、パラメトリック注釈を適切に変換することによって監視できます。設計の選択と提案された深い監視が、正確な予測と意味のある表現を実現するのにどのように役立つかを示します。 KITTIとNuScenesの2つの公開データセットでアプローチを検証し、人間による監視を大幅に減らして最先端の結果を実現します。
We propose an end-to-end network that takes a single perspective RGB image of a complex road scene as input, to produce occlusion-reasoned layouts in perspective space as well as a top-view parametric space. In contrast to prior works that require dense supervision such as semantic labels in perspective view, the only human annotations required by our method are for parametric attributes that are cheaper and less ambiguous to obtain. To solve this challenging task, our design is comprised of modules that incorporate inductive biases to learn occlusion-reasoning, geometric transformation and semantic abstraction, where each module may be supervised by appropriately transforming the parametric annotations. We demonstrate how our design choices and proposed deep supervision help achieve accurate predictions and meaningful representations. We validate our approach on two public datasets, KITTI and NuScenes, to achieve state-of-the-art results with considerably lower human supervision.
updated: Wed Apr 14 2021 09:32:29 GMT+0000 (UTC)
published: Wed Apr 14 2021 09:32:29 GMT+0000 (UTC)
