レイアウト推定などのグローバルなシーン理解タスクは、より広い視野、特に球形のパノラマから恩恵を受けることができることが示されています。最近多くの進歩が見られましたが、以前のすべてのアプローチは、中間表現と後処理に依存して、マンハッタンに沿った推定値を生成します。この作業では、後処理の必要性を排除して、シングルショットで部屋全体のレイアウトを推定する方法を示します。私たちの仕事は、マンハッタンに合わせたアウトプットを直接推測した最初のものです。これを実現するために、データ駆動型モデルは直接座標回帰を活用し、エンドツーエンドで監視されます。その結果、準マンハッタン制約を明示的に追加できます。これにより、ホモグラフィベースのマンハッタンアライメントモジュールに必要な条件が設定されます。最後に、測地線ヒートマップと損失、および球形領域での高品質のキーポイント推定を容易にする境界を意識した重心計算を紹介します。私たちのモデルとコードはhttps://vcl3d.github.io/SingleShotCuboids/で公開されています。
It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. Our work is the first to directly infer Manhattan-aligned outputs. To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. Our models and code are publicly available at https://vcl3d.github.io/SingleShotCuboids/.