人間環境で移動するロボットは、言語を使用して支援を求め、人間の反応を理解できる必要があります。この課題を研究するために、私たちは、シミュレートされたフォトリアリスティックな家庭環境に配置された、2kを超える具体化された人間と人間の対話のデータセットであるCooperative Vision-and-Dialog Navigationを導入します。ナビゲーターはパートナーであるオラクルに質問をします。オラクルは最短経路プランナーに従って、ナビゲーターがとるべき次の最適なステップに特権的にアクセスできます。目的地の環境を検索するエージェントをトレーニングするために、ダイアログ履歴からのナビゲーションタスクを定義します。ターゲットオブジェクトと、そのオブジェクトを見つけるために協力する人間間の対話履歴が与えられたエージェントは、未探索の環境で目標に向かってナビゲーションアクションを推測する必要があります。初期のマルチモーダルシーケンスツーシーケンスモデルを確立し、ダイアログ履歴をさかのぼるとパフォーマンスが向上することを示します。ソースコードとライブインターフェースのデモはhttps://cvdn.dev/で見つけることができます
Robots navigating in human environments should use language to ask for assistance and be able to understand human responses. To study this challenge, we introduce Cooperative Vision-and-Dialog Navigation, a dataset of over 2k embodied, human-human dialogs situated in simulated, photorealistic home environments. The Navigator asks questions to their partner, the Oracle, who has privileged access to the best next steps the Navigator should take according to a shortest path planner. To train agents that search an environment for a goal location, we define the Navigation from Dialog History task. An agent, given a target object and a dialog history between humans cooperating to find that object, must infer navigation actions towards the goal in unexplored environments. We establish an initial, multi-modal sequence-to-sequence model and demonstrate that looking farther back in the dialog history improves performance. Sourcecode and a live interface demo can be found at https://cvdn.dev/