arXiv reaDer
Move2Hear: Active Audio-Visual Source Separation
アクティブなオーディオビジュアルソース分離の問題を紹介します。この問題では、エージェントは、環境内の対象オブジェクトからの音をより適切に分離するために、インテリジェントに移動する必要があります。エージェントは複数のオーディオソースを同時に聞き(たとえば、騒がしい家庭の廊下で話している人)、限られた時間内にターゲットオブジェクトから発生する音を自動的に分離するために目と耳を使用する必要があります。この目標に向けて、予測される音声分離品質の改善に基づいて、エージェントのカメラとマイクの配置を時間の経過とともに制御する移動ポリシーをトレーニングする強化学習アプローチを導入します。拡張現実(システムはすでにターゲットオブジェクトと同じ場所に配置されています)とモバイルロボティクス(エージェントはターゲットオブジェクトから任意に離れて開始します)の両方によって動機付けられたシナリオで、私たちのアプローチを示します。 3D環境で最先端のリアルなオーディオビジュアルシミュレーションを使用して、オーディオソース分離の最大の見返りを備えた最小の動きシーケンスを見つけるモデルの能力を示します。プロジェクト:。
We introduce the active audio-visual source separation problem, where an agent must move intelligently in order to better isolate the sounds coming from an object of interest in its environment. The agent hears multiple audio sources simultaneously (e.g., a person speaking down the hall in a noisy household) and must use its eyes and ears to automatically separate out the sounds originating from the target object within a limited time budget. Towards this goal, we introduce a reinforcement learning approach that trains movement policies controlling the agent's camera and microphone placement over time, guided by the improvement in predicted audio separation quality. We demonstrate our approach in scenarios motivated by both augmented reality (system is already co-located with the target object) and mobile robotics (agent begins arbitrarily far from the target object). Using state-of-the-art realistic audio-visual simulations in 3D environments, we demonstrate our model's ability to find minimal movement sequences with maximal payoff for audio source separation. Project:
updated: Sat May 15 2021 04:58:08 GMT+0000 (UTC)
published: Sat May 15 2021 04:58:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト