arXiv reaDer
視聴覚ナビゲーションのための一般化可能な音声表現に向けて
Towards Generalisable Audio Representations for Audio-Visual Navigation
視聴覚ナビゲーション(AVN)では、知的エージェントは、その音声と視覚の知覚に基づいて、複雑な3D環境で絶えず音を出すオブジェクトにナビゲートする必要があります。既存の方法は、貴重に設計された経路計画または複雑なタスク設定を使用してナビゲーションパフォーマンスを改善しようとしますが、タスク設定を変更せずに聞いたことのない音のモデルの一般化を改善したものはありません。したがって、音声エンコーダーを正規化することによってこの課題に取り組むための対照的な学習ベースの方法を提案します。この方法では、音にとらわれない目標駆動型の潜在的表現を、さまざまなクラスのさまざまな音声信号から学習できます。さらに、トレーニングサウンドを充実させるために、2つのデータ拡張戦略を検討します。設計を既存のAVNフレームワークに簡単に装備して、パフォーマンスを即座に向上できることを示します(レプリカのSPLでは13.4%\ uparrow、MP3DのSPLでは12.2%\ uparrow)。私たちのプロジェクトはhttps://AV-GeN.github.io/で入手できます。
In audio-visual navigation (AVN), an intelligent agent needs to navigate to a constantly sound-making object in complex 3D environments based on its audio and visual perceptions. While existing methods attempt to improve the navigation performance with preciously designed path planning or intricate task settings, none has improved the model generalisation on unheard sounds with task settings unchanged. We thus propose a contrastive learning-based method to tackle this challenge by regularising the audio encoder, where the sound-agnostic goal-driven latent representations can be learnt from various audio signals of different classes. In addition, we consider two data augmentation strategies to enrich the training sounds. We demonstrate that our designs can be easily equipped to existing AVN frameworks to obtain an immediate performance gain (13.4%\uparrow in SPL on Replica and 12.2%\uparrow in SPL on MP3D). Our project is available at https://AV-GeN.github.io/.
updated: Wed Jun 01 2022 11:00:07 GMT+0000 (UTC)
published: Wed Jun 01 2022 11:00:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト