arXiv reaDer
BEVBert: 言語ガイド付きナビゲーションのためのマルチモーダル マップの事前トレーニング
BEVBert: Multimodal Map Pre-training for Language-guided Navigation
大規模な事前トレーニングにより、視覚と言語のナビゲーション (VLN) タスクに関して有望な結果が示されました。ただし、既存の事前トレーニング方法のほとんどは、視覚とテキストの関連性を学習するために個別のパノラマを使用しています。これには、モデルがパノラマ内の不完全な重複した観察を暗黙的に関連付けることが必要であり、エージェントの空間理解を損なう可能性があります。したがって、VLN で使用するための空間認識型の新しいマップベースの事前トレーニング パラダイムを提案します。具体的には、グローバル トポロジ マップでナビゲーションの依存関係をモデル化しながら、不完全な観測を明示的に集約して重複を削除するローカル メトリック マップを構築します。このハイブリッド設計により、短期的な推論と長期的な計画の両方に対する VLN の需要のバランスをとることができます。次に、ハイブリッド マップに基づいて、マルチモーダル マップ表現を学習するための事前トレーニング フレームワークを考案します。これにより、空間認識クロスモーダル推論が強化され、言語誘導ナビゲーションの目標が促進されます。広範な実験により、VLN のマップベースの事前トレーニング ルートの有効性が実証され、提案された方法は 4 つの VLN ベンチマークで最先端を達成しました。
Large-scale pre-training has shown promising results on the vision-and-language navigation (VLN) task. However, most existing pre-training methods employ discrete panoramas to learn visual-textual associations. This requires the model to implicitly correlate incomplete, duplicate observations within the panoramas, which may impair an agent's spatial understanding. Thus, we propose a new map-based pre-training paradigm that is spatial-aware for use in VLN. Concretely, we build a local metric map to explicitly aggregate incomplete observations and remove duplicates, while modeling navigation dependency in a global topological map. This hybrid design can balance the demand of VLN for both short-term reasoning and long-term planning. Then, based on the hybrid map, we devise a pre-training framework to learn a multimodal map representation, which enhances spatial-aware cross-modal reasoning thereby facilitating the language-guided navigation goal. Extensive experiments demonstrate the effectiveness of the map-based pre-training route for VLN, and the proposed method achieves state-of-the-art on four VLN benchmarks.
updated: Thu Aug 03 2023 09:39:00 GMT+0000 (UTC)
published: Thu Dec 08 2022 16:27:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト