視覚と言語のナビゲーション (VLN) は現実的ですが、エージェントが言語と視覚の手がかりを使用してターゲット領域を見つける必要がある困難なタスクです。最近大きな進歩が達成されましたが、まだ 2 つの大きな制限があります。(1) 視覚と言語の両方に隠されている重要なガイド セマンティクスのための明示的な情報マイニングは、まだ調査されていません。 (2) 以前に構造化されたマップ方法は、訪問したノードの平均的な履歴の外観を提供しますが、さまざまな画像の特徴的な寄与と推論プロセスにおける強力な情報保持を無視します。この作業では、上記の問題に対処するために、デュアル セマンティック アウェア リカレント グローバル アダプティブ ネットワーク (DSRG) を提案します。まず、DSRG は、視覚と言語のセマンティック学習をそれぞれ強化するための命令ガイダンス言語モジュール (IGL) と外観セマンティクス ビジュアル モジュール (ASV) を提案しています。メモリ メカニズムについては、グローバル適応集約モジュール (GAA) が明示的なパノラマ観測融合のために考案され、反復メモリ融合モジュール (RMF) が導入されて、暗黙的な一時的な隠れ状態が提供されます。 R2R および REVERIE データセットに関する広範な実験結果は、私たちの方法が既存の方法よりも優れたパフォーマンスを達成することを示しています。
Vision-and-Language Navigation (VLN) is a realistic but challenging task that requires an agent to locate the target region using verbal and visual cues. While significant advancements have been achieved recently, there are still two broad limitations: (1) The explicit information mining for significant guiding semantics concealed in both vision and language is still under-explored; (2) The previously structured map method provides the average historical appearance of visited nodes, while it ignores distinctive contributions of various images and potent information retention in the reasoning process. This work proposes a dual semantic-aware recurrent global-adaptive network (DSRG) to address the above problems. First, DSRG proposes an instruction-guidance linguistic module (IGL) and an appearance-semantics visual module (ASV) for boosting vision and language semantic learning respectively. For the memory mechanism, a global adaptive aggregation module (GAA) is devised for explicit panoramic observation fusion, and a recurrent memory fusion module (RMF) is introduced to supply implicit temporal hidden states. Extensive experimental results on the R2R and REVERIE datasets demonstrate that our method achieves better performance than existing methods.