arXiv reaDer
ロボット ナビゲーション用の視聴覚言語マップ
Audio Visual Language Maps for Robot Navigation
世界での相互作用は多感覚の経験ですが、多くのロボットは、主に視覚に依存して環境内をマッピングおよびナビゲートし続けています。この作業では、オーディオ、ビジュアル、および言語の手がかりからのクロスモーダル情報を格納するための統合された 3D 空間マップ表現である Audio-Visual-Language Maps (AVLMaps) を提案します。 AVLMaps は、インターネット スケールのデータで事前にトレーニングされたマルチモーダル基盤モデルのオープン語彙機能を、それらの機能を集中化された 3D ボクセル グリッドに融合することによって統合します。ナビゲーションのコンテキストでは、AVLMaps を使用して、ロボット システムがマルチモーダル クエリ (ランドマークのテキスト説明、画像、音声スニペットなど) に基づいてマップ内の目標をインデックス化できることを示します。特に、音声情報の追加により、ロボットはより確実に目標の場所を明確にすることができます。シミュレーションでの広範な実験は、AVLMaps がマルチモーダル プロンプトからのゼロ ショット マルチモーダル ゴール ナビゲーションを可能にし、あいまいなシナリオで 50% 優れたリコールを提供することを示しています。これらの機能は、実世界のモバイル ロボットにも適用され、視覚、聴覚、および空間の概念を参照してランドマークに移動します。ビデオとコードは、https://avlmaps.github.io で入手できます。
While interacting in the world is a multi-sensory experience, many robots continue to predominantly rely on visual perception to map and navigate in their environments. In this work, we propose Audio-Visual-Language Maps (AVLMaps), a unified 3D spatial map representation for storing cross-modal information from audio, visual, and language cues. AVLMaps integrate the open-vocabulary capabilities of multimodal foundation models pre-trained on Internet-scale data by fusing their features into a centralized 3D voxel grid. In the context of navigation, we show that AVLMaps enable robot systems to index goals in the map based on multimodal queries, e.g., textual descriptions, images, or audio snippets of landmarks. In particular, the addition of audio information enables robots to more reliably disambiguate goal locations. Extensive experiments in simulation show that AVLMaps enable zero-shot multimodal goal navigation from multimodal prompts and provide 50% better recall in ambiguous scenarios. These capabilities extend to mobile robots in the real world - navigating to landmarks referring to visual, audio, and spatial concepts. Videos and code are available at: https://avlmaps.github.io.
updated: Mon Mar 27 2023 15:10:51 GMT+0000 (UTC)
published: Mon Mar 13 2023 23:17:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト