Vision-and-Language Navigation(VLN)では、具体化されたエージェントは、自然言語指導のガイダンスのみで目的地に到達する必要があります。環境を探索し、ターゲットの場所に向かって進行するには、エージェントは、先に進む前に、回転などの一連の低レベルのアクションを実行する必要があります。この論文では、動的畳み込みフィルタを活用して、視覚情報と言語記述を効率的な方法でエンコードすることを提案します。エージェントの観点から抽象化し、高レベルのナビゲーションスペースを使用する以前の作品とは異なり、動的畳み込みによって提供される情報を一連の低レベルのエージェントフレンドリーなアクションにデコードするポリシーを設計します。結果は、動的フィルタを活用したモデルが、従来の畳み込みを備えた他のアーキテクチャよりも優れたパフォーマンスを発揮することを示しています。さらに、アーキテクチャの選択に応じてVLNの最近の作業を分類し、2つの主要なグループを区別しようと試みます。これらを低レベルアクションモデルと高レベルアクションモデルと呼びます。私たちの知る限り、この分析とVLNの分類を提案したのは私たちが最初です。
In Vision-and-Language Navigation (VLN), an embodied agent needs to reach a target destination with the only guidance of a natural language instruction. To explore the environment and progress towards the target location, the agent must perform a series of low-level actions, such as rotate, before stepping ahead. In this paper, we propose to exploit dynamic convolutional filters to encode the visual information and the lingual description in an efficient way. Differently from some previous works that abstract from the agent perspective and use high-level navigation spaces, we design a policy which decodes the information provided by dynamic convolution into a series of low-level, agent friendly actions. Results show that our model exploiting dynamic filters performs better than other architectures with traditional convolution, being the new state of the art for embodied VLN in the low-level action space. Additionally, we attempt to categorize recent work on VLN depending on their architectural choices and distinguish two main groups: we call them low-level actions and high-level actions models. To the best of our knowledge, we are the first to propose this analysis and categorization for VLN.