arXiv reaDer
セマンティック オーディオビジュアル エンボディド ナビゲーションのための知識駆動型シーン プライア
Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied Navigation
目に見えないコンテキストへの一般化は、具現化されたナビゲーション エージェントにとって依然として課題です。セマンティック オーディオ ビジュアル ナビゲーション (SAVi) タスクのコンテキストでは、一般化の概念には、目に見えない屋内の視覚的シーンへの一般化と、聞いたことのない音響オブジェクトへの一般化の両方が含まれる必要があります。ただし、以前のSAViタスク定義には、真に新しいサウンドオブジェクトの評価条件が含まれておらず、代わりに、既知のオブジェクトの前代未聞のサウンドクリップでエージェントを評価することに頼っていました。一方、以前のSAViメソッドには、オブジェクトと領域のセマンティクスに関するドメイン知識を組み込むための明示的なメカニズムが含まれていません。これらの弱点は、学習した経験を一般化するモデルの能力の開発と評価を制限します。この作業では、セマンティック オーディオ ビジュアル エンボディド ナビゲーション タスクにおける知識駆動型シーン プライアの使用を紹介します。オブジェクトと領域の関係をエンコードする新しいナレッジ グラフからのセマンティック情報、デュアル グラフ エンコーダー ネットワークからの空間知識、および背景を組み合わせます。一連の事前トレーニング タスクからの知識 -- すべてが視聴覚ナビゲーションの強化学習フレームワーク内にあります。また、既知のオブジェクトの前代未聞のクリップとは対照的に、エージェントが新しいサウンドオブジェクトで評価される新しいオーディオビジュアルナビゲーションサブタスクを定義します。 SoundSpaces タスクの下で、Habitat-Matterport3D シミュレーション環境内で、目に見えない領域と新しいサウンド オブジェクトへの一般化における強力なベースラインの改善を示します。
Generalisation to unseen contexts remains a challenge for embodied navigation agents. In the context of semantic audio-visual navigation (SAVi) tasks, the notion of generalisation should include both generalising to unseen indoor visual scenes as well as generalising to unheard sounding objects. However, previous SAVi task definitions do not include evaluation conditions on truly novel sounding objects, resorting instead to evaluating agents on unheard sound clips of known objects; meanwhile, previous SAVi methods do not include explicit mechanisms for incorporating domain knowledge about object and region semantics. These weaknesses limit the development and assessment of models' abilities to generalise their learned experience. In this work, we introduce the use of knowledge-driven scene priors in the semantic audio-visual embodied navigation task: we combine semantic information from our novel knowledge graph that encodes object-region relations, spatial knowledge from dual Graph Encoder Networks, and background knowledge from a series of pre-training tasks -- all within a reinforcement learning framework for audio-visual navigation. We also define a new audio-visual navigation sub-task, where agents are evaluated on novel sounding objects, as opposed to unheard clips of known objects. We show improvements over strong baselines in generalisation to unseen regions and novel sounding objects, within the Habitat-Matterport3D simulation environment, under the SoundSpaces task.
updated: Wed Dec 21 2022 20:34:33 GMT+0000 (UTC)
published: Wed Dec 21 2022 20:34:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト