Cross-view Semantic Segmentation for Sensing Surroundings
周囲のセンシングは、オブジェクトの空間構成と観測から自由空間を抽出するため、人間の空間知覚において重要な役割を果たします。このような周囲のセンシング機能を備えたロボットの知覚を促進するために、クロスビューセマンティックセグメンテーションと呼ばれる新しい視覚的タスクと、それに対処するためのビュー解析ネットワーク(VPN)というフレームワークを導入します。クロスビューセマンティックセグメンテーションタスクでは、エージェントは最初のビューの観測を解析して、ピクセルレベルですべてのオブジェクトの空間位置を示すトップダウンビューのセマンティックマップに変換するようにトレーニングされます。このタスクの主な問題は、トップダウンビューデータの実際の注釈が欠けていることです。これを軽減するために、VPNを3Dグラフィック環境でトレーニングし、ドメイン適応技術を利用してそれを転送して実際のデータを処理します。私たちは、合成エージェントと実際のエージェントの両方でVPNを評価します。実験結果は、私たちのモデルが空間情報を理解するためにさまざまなビューやマルチモダリティからの情報を効果的に利用できることを示しています。 LoCoBotロボットに関する私たちのさらなる実験は、私たちのモデルが2D画像入力からの周囲のセンシング機能を可能にすることを示しています。コードとデモのビデオはhttps://view-parsing-network.github.ioにあります。
Sensing surroundings plays a crucial role in human spatial perception, as it extracts the spatial configuration of objects as well as the free space from the observations. To facilitate the robot perception with such a surrounding sensing capability, we introduce a novel visual task called Cross-view Semantic Segmentation as well as a framework named View Parsing Network (VPN) to address it. In the cross-view semantic segmentation task, the agent is trained to parse the first-view observations into a top-down-view semantic map indicating the spatial location of all the objects at pixel-level. The main issue of this task is that we lack the real-world annotations of top-down-view data. To mitigate this, we train the VPN in 3D graphics environment and utilize the domain adaptation technique to transfer it to handle real-world data. We evaluate our VPN on both synthetic and real-world agents. The experimental results show that our model can effectively make use of the information from different views and multi-modalities to understanding spatial information. Our further experiment on a LoCoBot robot shows that our model enables the surrounding sensing capability from 2D image input. Code and demo videos can be found at
updated: Thu Jun 18 2020 06:56:18 GMT+0000 (UTC)
published: Sun Jun 09 2019 04:18:03 GMT+0000 (UTC)
