ディープニューラルネットワークを使用した単一のパノラマによる3Dルームレイアウトの推定は、大きな進歩を遂げました。ただし、以前のアプローチでは、境界の緯度または地平線の深さだけでは、部屋のレイアウトの効率的なジオメトリ認識を取得できません。部屋の高さとともに地平線の深さを使用すると、水平方向と垂直方向の両方で部屋のレイアウトの全方向性ジオメトリ認識を取得できることを示します。さらに、壁の平面性とコーナーの回転を監視するために、法線と法線の勾配を使用した平面ジオメトリ対応の損失関数を提案します。部屋のレイアウトを推定するための効率的なネットワークであるLGT-Netを提案します。これには、ジオメトリ関係をモデル化するためのSWG-Transformerと呼ばれる新しいTransformerアーキテクチャが含まれています。 SWG-Transformerは、ローカルとグローバルのジオメトリ関係を組み合わせるための(シフトされた)ウィンドウブロックとグローバルブロックで構成されています。さらに、パノラマの空間識別機能を強化するために、Transformerの新しい相対位置埋め込みを設計します。実験によると、提案されたLGT-Netは、ベンチマークデータセットで現在の最先端技術(SOTA)よりも優れたパフォーマンスを実現します。
3D room layout estimation by a single panorama using deep neural networks has made great progress. However, previous approaches can not obtain efficient geometry awareness of room layout with the only latitude of boundaries or horizon-depth. We present that using horizon-depth along with room height can obtain omnidirectional-geometry awareness of room layout in both horizontal and vertical directions. In addition, we propose a planar-geometry aware loss function with normals and gradients of normals to supervise the planeness of walls and turning of corners. We propose an efficient network, LGT-Net, for room layout estimation, which contains a novel Transformer architecture called SWG-Transformer to model geometry relations. SWG-Transformer consists of (Shifted) Window Blocks and Global Blocks to combine the local and global geometry relations. Moreover, we design a novel relative position embedding of Transformer to enhance the spatial identification ability for the panorama. Experiments show that the proposed LGT-Net achieves better performance than current state-of-the-arts (SOTA) on benchmark datasets.