3Dで具現化された環境のどこからでも、人間のように言語に導かれたターゲットに向かってナビゲートする機能は、インテリジェントロボットの「聖杯」の目標の1つです。ただし、ほとんどのビジュアルナビゲーションベンチマークは、段階的に説明する一連の精巧な指示に従って、固定された開始点からターゲットに向かってナビゲートすることに重点を置いています。このアプローチは、人間だけがオブジェクトとその周囲がどのように見えるかを記述し、ロボットにどこからでもナビゲーションを開始するように要求するという現実の問題から逸脱しています。したがって、このペーパーでは、シナリオ指向オブジェクトナビゲーション(SOON)タスクを紹介します。このタスクでは、エージェントは、シーンの説明に従ってターゲットをローカライズするために、3D具体化された環境の任意の位置からナビゲートする必要があります。この課題を解決するための有望な方向性を与えるために、ナビゲーション状態をグラフとしてモデル化し、グラフから知識を学習し、トレーニングを安定させるための新しいグラフベースの探索アプローチを導入する、新しいグラフベースの探索(GBE)メソッドを提案します。最適ではない軌道を学習する。また、From Anywhere to Object(FAO)データセットという名前の新しい大規模ベンチマークを提案します。ターゲットのあいまいさを回避するために、FAOの説明には、オブジェクト属性、オブジェクトの関係、領域の説明、および近くの領域の説明など、豊富なセマンティックシーン情報が含まれています。私たちの実験は、提案されたGBEがFAOとR2Rの両方のデータセットでさまざまな最先端技術を上回っていることを明らかにしています。そして、FAOのアブレーション研究は、データセットの品質を検証します。
The ability to navigate like a human towards a language-guided target from anywhere in a 3D embodied environment is one of the 'holy grail' goals of intelligent robots. Most visual navigation benchmarks, however, focus on navigating toward a target from a fixed starting point, guided by an elaborate set of instructions that depicts step-by-step. This approach deviates from real-world problems in which human-only describes what the object and its surrounding look like and asks the robot to start navigation from anywhere. Accordingly, in this paper, we introduce a Scenario Oriented Object Navigation (SOON) task. In this task, an agent is required to navigate from an arbitrary position in a 3D embodied environment to localize a target following a scene description. To give a promising direction to solve this task, we propose a novel graph-based exploration (GBE) method, which models the navigation state as a graph and introduces a novel graph-based exploration approach to learn knowledge from the graph and stabilize training by learning sub-optimal trajectories. We also propose a new large-scale benchmark named From Anywhere to Object (FAO) dataset. To avoid target ambiguity, the descriptions in FAO provide rich semantic scene information includes: object attribute, object relationship, region description, and nearby region description. Our experiments reveal that the proposed GBE outperforms various state-of-the-arts on both FAO and R2R datasets. And the ablation studies on FAO validates the quality of the dataset.