近年、以前には見られなかった環境で目標ナビゲーションをポイントするためのいくつかの学習アプローチが提案されています。それらは、環境の表現、問題の分解、および実験的評価が異なります。この作業では、最先端の深層強化学習ベースのアプローチと、ポイント ゴール ナビゲーション問題の部分観測マルコフ決定プロセス (POMDP) の定式化を比較します。 [1] によって提案された (POMDP) サブゴール フレームワークを適応させ、画像のセマンティック セグメンテーションから構築された屋内シーンの部分セマンティック マップを使用してフロンティア プロパティを推定するコンポーネントを変更します。モデルベースのアプローチのよく知られている完全性に加えて、楽観的なフロンティアベースのプランナーと比較して、有益で学習されたフロンティアのプロパティを活用するという点で、それが堅牢で効率的であることを示します。また、エンドツーエンドの深層強化学習アプローチと比較したデータ効率も示しています。 Habitat Simulator を使用して、Matterport3D データセットの楽観的プランナーである ANS および DD-PPO と結果を比較します。 SOTA DD-PPO アプローチよりもパフォーマンスはわずかに劣りますが、はるかに少ないデータで同等のパフォーマンスを示しています。
In recent years several learning approaches to point goal navigation in previously unseen environments have been proposed. They vary in the representations of the environments, problem decomposition, and experimental evaluation. In this work, we compare the state-of-the-art Deep Reinforcement Learning based approaches with Partially Observable Markov Decision Process (POMDP) formulation of the point goal navigation problem. We adapt the (POMDP) sub-goal framework proposed by [1] and modify the component that estimates frontier properties by using partial semantic maps of indoor scenes built from images' semantic segmentation. In addition to the well-known completeness of the model-based approach, we demonstrate that it is robust and efficient in that it leverages informative, learned properties of the frontiers compared to an optimistic frontier-based planner. We also demonstrate its data efficiency compared to the end-to-end deep reinforcement learning approaches. We compare our results against an optimistic planner, ANS and DD-PPO on Matterport3D dataset using the Habitat Simulator. We show comparable, though slightly worse performance than the SOTA DD-PPO approach, yet with far fewer data.