パノラマ画像により、周囲の 360^∘ 環境をより深く理解し、より全体的な認識が可能になり、標準的な透視画像と比較して豊富なシーンのコンテキスト情報を自然にエンコードできます。これまでの研究では、シーン理解タスクをボトムアップ形式で解決するために多大な努力が払われてきたため、各サブタスクは個別に処理され、この手順では相関関係はほとんど調査されませんでした。この論文では、単一のパノラマからオブジェクトの形状、指向性バウンディングボックス、および 3D 部屋のレイアウトを同時に復元する、総合的な屋内シーンの理解のために深度事前を使用する新しい方法を提案します。豊富なコンテキスト情報を最大限に活用するために、シーンの各コンポーネント間の表現と関係を予測するトランスフォーマーベースのコンテキスト モジュールを設計します。さらに、写真のようにリアルなパノラマ、高忠実度の深度画像、正確に注釈が付けられた部屋のレイアウト、指向性のあるオブジェクトの境界ボックスと形状など、シーンを理解するための実世界のデータセットを導入します。合成データセットと現実世界のデータセットでの実験では、私たちの方法がレイアウト推定と 3D オブジェクト検出の両方の点で以前のパノラマ シーン理解方法よりも優れていることが実証されました。
Panoramic image enables deeper understanding and more holistic perception of 360^∘ surrounding environment, which can naturally encode enriched scene context information compared to standard perspective image. Previous work has made lots of effort to solve the scene understanding task in a bottom-up form, thus each sub-task is processed separately and few correlations are explored in this procedure. In this paper, we propose a novel method using depth prior for holistic indoor scene understanding which recovers the objects' shapes, oriented bounding boxes and the 3D room layout simultaneously from a single panorama. In order to fully utilize the rich context information, we design a transformer-based context module to predict the representation and relationship among each component of the scene. In addition, we introduce a real-world dataset for scene understanding, including photo-realistic panoramas, high-fidelity depth images, accurately annotated room layouts, and oriented object bounding boxes and shapes. Experiments on the synthetic and real-world datasets demonstrate that our method outperforms previous panoramic scene understanding methods in terms of both layout estimation and 3D object detection.