移動可能な空間を検出することは、未知またはマッピングされていない環境を移動するモバイル ロボットの基本的な機能です。この作業では、視覚的なナビゲート可能な空間セグメンテーションをシーン分解問題として扱い、ポリライン セグメンテーション変分オートエンコーダ ネットワーク (PSV-Net) を提案します。これは、ナビゲート可能な空間セグメンテーションを自己教師付きで学習するための表現学習ベースのフレームワークです。現在のセグメンテーション手法は、大量のピクセル レベルの注釈付き画像を必要とする完全教師あり学習戦略に大きく依存しています。この作業では、Variational AutoEncoder (VAE) と AutoEncoder (AE) を活用して、目的のナビゲーション可能な空間境界をコンパクトに概説するポリライン表現を学習するフレームワークを提案します。大規模な実験を通じて、提案された PSV-Net がラベルなしまたは少数のラベルで視覚的にナビゲート可能な空間を学習できることを検証し、利用可能なすべてのラベルを使用する完全に監視された最先端の方法に匹敵する精度を生成します。さらに、提案されたナビゲーション可能な空間セグメンテーション モデルをビジュアル プランナーと統合することで、実際の環境で効率的なマップレス ナビゲーションを実現できることを示します。
Detecting navigable space is a fundamental capability for mobile robots navigating in unknown or unmapped environments. In this work, we treat visual navigable space segmentation as a scene decomposition problem and propose Polyline Segmentation Variational autoencoder Network (PSV-Net), a representation learning-based framework for learning the navigable space segmentation in a self-supervised manner. Current segmentation techniques heavily rely on fully-supervised learning strategies which demand a large amount of pixel-level annotated images. In this work, we propose a framework leveraging a Variational AutoEncoder (VAE) and an AutoEncoder (AE) to learn a polyline representation that compactly outlines the desired navigable space boundary. Through extensive experiments, we validate that the proposed PSV-Net can learn the visual navigable space with no or few labels, producing an accuracy comparable to fully-supervised state-of-the-art methods that use all available labels. In addition, we show that integrating the proposed navigable space segmentation model with a visual planner can achieve efficient mapless navigation in real environments.