ビジョン言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従ってナビゲートすることを学習するタスクです。このタスクの鍵は、視覚シーンと自然言語の両方を順番に知覚することです。従来のアプローチでは、クロスモーダルグラウンディングのビジョンと言語機能を活用します。ただし、以前の研究では環境に含まれる豊富なセマンティック情報(暗黙のナビゲーショングラフやサブトラジェクトリセマンティクスなど)を無視していたため、VLNタスクは挑戦的なままです。このペーパーでは、セマンティック情報から派生した追加のトレーニング信号を活用するための4つの自己監視型補助推論タスクを備えたフレームワークである、補助推論ナビゲーション(AuxRN)を紹介します。補助タスクには4つの推論目標があります。前のアクションの説明、ナビゲーションの進行状況の推定、次の方向の予測、および軌道の一貫性の評価です。その結果、これらの追加のトレーニングシグナルは、エージェントがセマンティック表現の知識を獲得して、そのアクティビティについて推論し、環境の完全な認識を構築するのに役立ちます。私たちの実験は、補助推論タスクがメインタスクのパフォーマンスとモデルの一般化可能性の両方を大幅に改善することを示しています。経験的に、私たちは、自己監視型補助推論タスクで訓練されたエージェントが、従来の最先端の方法よりも大幅に優れていることを実証しています。
Vision-Language Navigation (VLN) is a task where agents learn to navigate following natural language instructions. The key to this task is to perceive both the visual scene and natural language sequentially. Conventional approaches exploit the vision and language features in cross-modal grounding. However, the VLN task remains challenging, since previous works have neglected the rich semantic information contained in the environment (such as implicit navigation graphs or sub-trajectory semantics). In this paper, we introduce Auxiliary Reasoning Navigation (AuxRN), a framework with four self-supervised auxiliary reasoning tasks to take advantage of the additional training signals derived from the semantic information. The auxiliary tasks have four reasoning objectives: explaining the previous actions, estimating the navigation progress, predicting the next orientation, and evaluating the trajectory consistency. As a result, these additional training signals help the agent to acquire knowledge of semantic representations in order to reason about its activity and build a thorough perception of the environment. Our experiments indicate that auxiliary reasoning tasks improve both the performance of the main task and the model generalizability by a large margin. Empirically, we demonstrate that an agent trained with self-supervised auxiliary reasoning tasks substantially outperforms the previous state-of-the-art method, being the best existing approach on the standard benchmark.