ロボット工学の長期的な課題の1つは、人間が言語を介して通信する視覚動物であるため、ロボットが自然言語を介して視覚世界の人間と対話できるようにすることです。この課題を克服するには、人間からの多種多様な指示に応じて、多種多様な複雑なタスクを実行する能力が必要です。ロボットとのより柔軟で強力な人間の相互作用に向けて進歩を促進することを期待して、私たちは、自然言語で記述された多様で複雑なロボットタスクのデータセットを、実画像の大きなセットに見えるオブジェクトの観点から提案します。指示が与えられた場合、成功するには、以前は見えなかった環境をナビゲートしてオブジェクトを識別する必要があります。これは実際的な課題ですが、ロボット工学の視覚的問題の核心の1つを密接に反映するものです。いくつかの最先端のビジョンと言語のナビゲーション、および参照表現モデルは、この新しいタスクの難しさを検証するためにテストされていますが、私たちのタスクと以前のタスクとの間には多くの根本的な違いがあるため、有望な結果を示すものはありません。また、タスクに関する強力なベースラインを提供する新しいインタラクティブナビゲーターポインターモデルも提案されています。提案されたモデルは、特に目に見えないテスト分割で最高のパフォーマンスを達成しますが、それでも人間のパフォーマンスと比較して大幅な改善の余地を残しています。
One of the long-term challenges of robotics is to enable robots to interact with humans in the visual world via natural language, as humans are visual animals that communicate through language. Overcoming this challenge requires the ability to perform a wide variety of complex tasks in response to multifarious instructions from humans. In the hope that it might drive progress towards more flexible and powerful human interactions with robots, we propose a dataset of varied and complex robot tasks, described in natural language, in terms of objects visible in a large set of real images. Given an instruction, success requires navigating through a previously-unseen environment to identify an object. This represents a practical challenge, but one that closely reflects one of the core visual problems in robotics. Several state-of-the-art vision-and-language navigation, and referring-expression models are tested to verify the difficulty of this new task, but none of them show promising results because there are many fundamental differences between our task and previous ones. A novel Interactive Navigator-Pointer model is also proposed that provides a strong baseline on the task. The proposed model especially achieves the best performance on the unseen test split, but still leaves substantial room for improvement compared to the human performance.