arXiv reaDer
視覚言語ナビゲーションのための強化された構造化状態の進化
Reinforced Structured State-Evolution for Vision-Language Navigation
視覚と言語のナビゲーション(VLN)タスクでは、自然言語の指示に従って遠隔地にナビゲートするために、具体化されたエージェントが必要です。以前の方法では、通常、ナビゲーターとしてシーケンスモデル(TransformerやLSTMなど)を採用しています。このようなパラダイムでは、シーケンスモデルは、一般に1次元ベクトルとして表される、維持されたナビゲーション状態を介して各ステップでのアクションを予測します。ただし、維持されたベクトルは本質的に構造化されていないため、具体化されたナビゲーションタスクの重要なナビゲーションの手がかり(つまり、オブジェクトレベルの環境レイアウト)は破棄されます。この論文では、VLNの環境レイアウトの手がかりを効果的に維持するための新しい構造化状態進化(SEvol)モデルを提案します。具体的には、ベクトルベースの状態ではなく、グラフベースの機能を使用してナビゲーション状態を表します。したがって、強化レイアウトの手がかりマイナー(RLM)を考案して、カスタマイズされた強化学習戦略を介して、長期ナビゲーションの最も重要なレイアウトグラフをマイニングおよび検出します。さらに、構造化進化モジュール(SEM)は、ナビゲーション中に構造化グラフベースの状態を維持するために提案されます。この状態は、オブジェクトレベルの時空間関係を学習するために徐々に進化します。 R2RおよびR4Rデータセットでの実験は、提案されたSEvolモデルがVLNモデルのパフォーマンスを大幅に改善することを示しています。たとえば、R2RテストセットのNvEMの絶対SPL精度は+ 3%、EnvDropの場合は+ 8%です。
Vision-and-language Navigation (VLN) task requires an embodied agent to navigate to a remote location following a natural language instruction. Previous methods usually adopt a sequence model (e.g., Transformer and LSTM) as the navigator. In such a paradigm, the sequence model predicts action at each step through a maintained navigation state, which is generally represented as a one-dimensional vector. However, the crucial navigation clues (i.e., object-level environment layout) for embodied navigation task is discarded since the maintained vector is essentially unstructured. In this paper, we propose a novel Structured state-Evolution (SEvol) model to effectively maintain the environment layout clues for VLN. Specifically, we utilise the graph-based feature to represent the navigation state instead of the vector-based state. Accordingly, we devise a Reinforced Layout clues Miner (RLM) to mine and detect the most crucial layout graph for long-term navigation via a customised reinforcement learning strategy. Moreover, the Structured Evolving Module (SEM) is proposed to maintain the structured graph-based state during navigation, where the state is gradually evolved to learn the object-level spatial-temporal relationship. The experiments on the R2R and R4R datasets show that the proposed SEvol model improves VLN models' performance by large margins, e.g., +3% absolute SPL accuracy for NvEM and +8% for EnvDrop on the R2R test set.
updated: Wed Apr 20 2022 07:51:20 GMT+0000 (UTC)
published: Wed Apr 20 2022 07:51:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト