arXiv reaDer
視覚と言語ナビゲーションのためのクロスモーダルマップ学習
Cross-modal Map Learning for Vision and Language Navigation
視覚と言語のナビゲーション(VLN)の問題を検討します。 VLNの現在の方法の大部分は、LSTMなどの非構造化メモリを使用するか、エージェントの自己中心的観察に対するクロスモーダル注意を使用して、エンドツーエンドでトレーニングされます。他の作品とは対照的に、私たちの重要な洞察は、言語と視覚の間の関連は、それが明示的な空間表現で発生するときに強くなるということです。この作業では、最初に観察された領域と観察されていない領域の両方の自己中心性マップでトップダウンのセマンティクスを予測することを学習し、次に目標へのパスを予測する、視覚と言語のナビゲーションのためのクロスモーダルマップ学習モデルを提案します。ウェイポイントのセット。どちらの場合も、予測はクロスモーダル注意メカニズムを介して言語によって通知されます。言語駆動型ナビゲーションはマップがあれば解決できるという基本的な仮説を実験的にテストし、完全なVLN-CEベンチマークで競争力のある結果を示します。
We consider the problem of Vision-and-Language Navigation (VLN). The majority of current methods for VLN are trained end-to-end using either unstructured memory such as LSTM, or using cross-modal attention over the egocentric observations of the agent. In contrast to other works, our key insight is that the association between language and vision is stronger when it occurs in explicit spatial representations. In this work, we propose a cross-modal map learning model for vision-and-language navigation that first learns to predict the top-down semantics on an egocentric map for both observed and unobserved regions, and then predicts a path towards the goal as a set of waypoints. In both cases, the prediction is informed by the language through cross-modal attention mechanisms. We experimentally test the basic hypothesis that language-driven navigation can be solved given a map, and then show competitive results on the full VLN-CE benchmark.
updated: Thu Mar 10 2022 03:30:12 GMT+0000 (UTC)
published: Thu Mar 10 2022 03:30:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト