Active Scene Understanding via Online Semantic Reconstruction
セマンティックセグメンテーションによるオンラインRGBD再構成に基づいて、未知の屋内シーンのロボット操作によるアクティブな理解への新しいアプローチを提案します。私たちの方法では、探索ロボットのスキャンは、シーンからのセマンティックオブジェクトの認識とセグメンテーションによって駆動され、ターゲットにされます。私たちのアルゴリズムは、ボリューム深度融合フレームワーク(KinectFusionなど)の上に構築されており、オンラインで再構築されたボリュームに対してリアルタイムのボクセルベースのセマンティックラベリングを実行します。ロボットは、2D位置と方位角回転の3D空間でパラメーター化されたオンライン推定離散表示スコアフィールド(VSF)によってガイドされます。 VSFは、グリッドごとに対応するビューのスコアを格納します。これは、幾何学的再構成とセマンティックラベリングの両方の不確実性(エントロピー)をどれだけ低減するかを測定します。 VSFに基づいて、各タイムステップのターゲットとして次善のビュー(NBV)を選択します。次に、パスと軌道に沿った積分表示スコア(情報ゲイン)を最大化することにより、2つの隣接するNBV間のトラバースパスとカメラ軌道を共同で最適化します。広範な評価を通じて、私たちの方法が探索的スキャン中に効率的かつ正確なオンラインシーン解析を実現することを示します。
We propose a novel approach to robot-operated active understanding of unknown indoor scenes, based on online RGBD reconstruction with semantic segmentation. In our method, the exploratory robot scanning is both driven by and targeting at the recognition and segmentation of semantic objects from the scene. Our algorithm is built on top of the volumetric depth fusion framework (e.g., KinectFusion) and performs real-time voxel-based semantic labeling over the online reconstructed volume. The robot is guided by an online estimated discrete viewing score field (VSF) parameterized over the 3D space of 2D location and azimuth rotation. VSF stores for each grid the score of the corresponding view, which measures how much it reduces the uncertainty (entropy) of both geometric reconstruction and semantic labeling. Based on VSF, we select the next best views (NBV) as the target for each time step. We then jointly optimize the traverse path and camera trajectory between two adjacent NBVs, through maximizing the integral viewing score (information gain) along path and trajectory. Through extensive evaluation, we show that our method achieves efficient and accurate online scene parsing during exploratory scanning.
updated: Thu Jan 13 2022 14:07:43 GMT+0000 (UTC)
published: Tue Jun 18 2019 07:15:27 GMT+0000 (UTC)
