arXiv reaDer
チャットでの行進: リモートで組み込まれた参照表現に対する対話型プロンプト
March in Chat: Interactive Prompting for Remote Embodied Referring Expression
近年、部屋ベースからオブジェクトベース、屋内から屋外に至るまで、多くの視覚と言語ナビゲーション (VLN) タスクが提案されています。 REVERIE (Remote Embodied Referring Expression) は、実際には人間のコマンドに近い高レベルの指示のみをエージェントに提供するため、興味深いものです。それにも関わらず、エージェントが短い指示のみに基づいてナビゲーション プランを推測する必要があるため、これは他の VLN タスクよりも多くの課題を引き起こします。大規模言語モデル (LLM) は、適切なプロンプトを提供することで、ロボットの動作計画に大きな可能性を示します。それでも、この戦略は REVERIE 設定では検討されていません。いくつかの新しい課題があります。たとえば、現在の目視観察に基づいてナビゲーション計画を調整できるように、LLM は環境を認識する必要があります。さらに、LLM の計画されたアクションは、より大規模で複雑な REVERIE 環境に適応できる必要があります。この論文では、新しく提案された Room-and-Object Aware Scene Perceiver (ROASP) に基づいて、オンザフライで LLM と通信し、動的に計画を立てることができる March-in-Chat (MiC) モデルを提案します。当社の MiC モデルは、REVERIE ベンチマークの SPL および RGSPL メトリックによって、以前の最先端モデルを大幅に上回っています。
Many Vision-and-Language Navigation (VLN) tasks have been proposed in recent years, from room-based to object-based and indoor to outdoor. The REVERIE (Remote Embodied Referring Expression) is interesting since it only provides high-level instructions to the agent, which are closer to human commands in practice. Nevertheless, this poses more challenges than other VLN tasks since it requires agents to infer a navigation plan only based on a short instruction. Large Language Models (LLMs) show great potential in robot action planning by providing proper prompts. Still, this strategy has not been explored under the REVERIE settings. There are several new challenges. For example, the LLM should be environment-aware so that the navigation plan can be adjusted based on the current visual observation. Moreover, the LLM planned actions should be adaptable to the much larger and more complex REVERIE environment. This paper proposes a March-in-Chat (MiC) model that can talk to the LLM on the fly and plan dynamically based on a newly proposed Room-and-Object Aware Scene Perceiver (ROASP). Our MiC model outperforms the previous state-of-the-art by large margins by SPL and RGSPL metrics on the REVERIE benchmark.
updated: Sun Aug 20 2023 03:00:20 GMT+0000 (UTC)
published: Sun Aug 20 2023 03:00:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト