arXiv reaDer
PQ-Transformer:点群からの3Dオブジェクトとレイアウトを共同で解析する
PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds
点群からの3Dシーンの理解は、さまざまなロボットアプリケーションにとって重要な役割を果たします。残念ながら、現在の最先端の方法では、オブジェクトの検出や部屋のレイアウトの推定など、さまざまなタスクに個別のニューラルネットワークを使用しています。このようなスキームには2つの制限があります。1)さまざまなタスクのために複数のネットワークを保存して実行すると、一般的なロボットプラットフォームではコストがかかります。 2)個別の出力の固有の構造は無視され、違反される可能性があります。この目的のために、点群入力を使用して3Dオブジェクトとレイアウトを同時に予測する最初のトランスフォーマーアーキテクチャを提案します。レイアウトのキーポイントまたはエッジを推定する既存の方法とは異なり、部屋のレイアウトをクワッドのセットとして直接パラメータ化します。そのため、提案されたアーキテクチャはP(oint)Q(uad)-Transformerと呼ばれます。新規のクワッド表現とともに、オブジェクトレイアウトの干渉を阻止する調整された物理的制約損失関数を提案します。公開ベンチマークScanNetでの定量的および定性的評価は、提案されたPQ-Transformerが、効率指向の最適化なしで準リアルタイム(8.91 FPS)レートで実行され、3Dオブジェクトとレイアウトを共同で解析することに成功することを示しています。さらに、新しい物理的制約の喪失により、強力なベースラインが改善され、部屋のレイアウトのF1スコアが37.9%から57.9%に大幅に向上します。
3D scene understanding from point clouds plays a vital role for various robotic applications. Unfortunately, current state-of-the-art methods use separate neural networks for different tasks like object detection or room layout estimation. Such a scheme has two limitations: 1) Storing and running several networks for different tasks are expensive for typical robotic platforms. 2) The intrinsic structure of separate outputs are ignored and potentially violated. To this end, we propose the first transformer architecture that predicts 3D objects and layouts simultaneously, using point cloud inputs. Unlike existing methods that either estimate layout keypoints or edges, we directly parameterize room layout as a set of quads. As such, the proposed architecture is termed as P(oint)Q(uad)-Transformer. Along with the novel quad representation, we propose a tailored physical constraint loss function that discourages object-layout interference. The quantitative and qualitative evaluations on the public benchmark ScanNet show that the proposed PQ-Transformer succeeds to jointly parse 3D objects and layouts, running at a quasi-real-time (8.91 FPS) rate without efficiency-oriented optimization. Moreover, the new physical constraint loss can improve strong baselines, and the F1-score of the room layout is significantly promoted from 37.9% to 57.9%.
updated: Sun Sep 12 2021 17:31:59 GMT+0000 (UTC)
published: Sun Sep 12 2021 17:31:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト