arXiv reaDer
RevealNet:RGB-Dスキャンでオブジェクトの背後を見る
RevealNet: Seeing Behind Objects in RGB-D Scans
 3D再構築中、多くの場合、すべてのビューから個々のオブジェクトをスキャンできないため、キャプチャされたスキャンでジオメトリが失われます。この欠落したジオメトリは、多くのアプリケーションで根本的に制限される場合があります。たとえば、ロボットは、オブジェクトを正確に把握するために、見えないジオメトリを知る必要があります。したがって、セマンティックインスタンスの完成というタスクを導入します。シーンの不完全なRGB-Dスキャンから、個々のオブジェクトインスタンスを検出し、その完全なオブジェクトジオメトリを推測することを目指しています。これにより、たとえば仮想エージェントやロボットエージェントなど、シーン内のオブジェクトとの対話の新しい可能性が開かれます。 RevealNetを導入することにより、この問題に対処します。RevealNetは、オブジェクトインスタンスを共同で検出し、その完全なジオメトリを予測する新しいデータ駆動型のアプローチです。これにより、スキャンされたシーンを、隠されたオブジェクト部分や観察されていないオブジェクト部分を含む個々の完全な3Dオブジェクトに意味的に意味のある分解が可能になります。 RevealNetは、カラーとジオメトリのジョイント機能学習を活用するエンドツーエンドの3Dニューラルネットワークアーキテクチャです。 3Dネットワークの完全な畳み込みの性質により、1回のフォワードパスで大規模な屋内環境の規模で3Dスキャンのセマンティックインスタンスの完了を効率的に推測できます。完全なオブジェクトジオメトリを予測すると、3D検出とインスタンスセグメンテーションパフォーマンスの両方が向上することがわかります。新しいタスクの実際と合成の両方のスキャンベンチマークデータで評価します。ScanNetではmAP@0.5で15以上、SUNCGではmAP@0.5で18以上、最先端のアプローチよりも優れています。
During 3D reconstruction, it is often the case that people cannot scan each individual object from all views, resulting in missing geometry in the captured scan. This missing geometry can be fundamentally limiting for many applications, e.g., a robot needs to know the unseen geometry to perform a precise grasp on an object. Thus, we introduce the task of semantic instance completion: from an incomplete RGB-D scan of a scene, we aim to detect the individual object instances and infer their complete object geometry. This will open up new possibilities for interactions with objects in a scene, for instance for virtual or robotic agents. We tackle this problem by introducing RevealNet, a new data-driven approach that jointly detects object instances and predicts their complete geometry. This enables a semantically meaningful decomposition of a scanned scene into individual, complete 3D objects, including hidden and unobserved object parts. RevealNet is an end-to-end 3D neural network architecture that leverages joint color and geometry feature learning. The fully-convolutional nature of our 3D network enables efficient inference of semantic instance completion for 3D scans at scale of large indoor environments in a single forward pass. We show that predicting complete object geometry improves both 3D detection and instance segmentation performance. We evaluate on both real and synthetic scan benchmark data for the new task, where we outperform state-of-the-art approaches by over 15 in mAP@0.5 on ScanNet, and over 18 in mAP@0.5 on SUNCG.
updated: Wed Mar 11 2020 19:16:11 GMT+0000 (UTC)
published: Fri Apr 26 2019 18:33:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト