arXiv reaDer
ダイナミック音源のアクティブオーディオビジュアルセパレーション
Active Audio-Visual Separation of Dynamic Sound Sources
動的音源のアクティブなオーディオとビジュアルの分離を検討します。ここでは、具体化されたエージェントが3D環境でインテリジェントに移動し、対象のオブジェクトから放出される時変オーディオストリームを継続的に分離します。エージェントは、複数のオーディオソースの混合ストリームを聞きます(たとえば、複数の人が会話したり、騒がしいパーティーでバンドが音楽を演奏したりします)。限られた時間の予算を考えると、自己中心的な視聴覚観察を使用して、すべてのステップでターゲットサウンドを正確に抽出する必要があります。モーションポリシーを学習してカメラとマイクを制御し、動的なターゲットオーディオを回復し、自己注意を使用して現在のタイムステップの高品質な推定を行い、同時に過去の推定を改善する、新しいトランスフォーマーメモリを備えた強化学習エージェントを提案します。実世界でスキャンされたMatterport3D環境で非常にリアルな音響SoundSpacesシミュレーションを使用して、モデルが動的オーディオターゲットの連続分離を実行するための効率的な動作を学習できることを示します。プロジェクト:https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。
We explore active audio-visual separation for dynamic sound sources, where an embodied agent moves intelligently in a 3D environment to continuously isolate the time-varying audio stream being emitted by an object of interest. The agent hears a mixed stream of multiple audio sources (e.g., multiple people conversing and a band playing music at a noisy party). Given a limited time budget, it needs to extract the target sound accurately at every step using egocentric audio-visual observations. We propose a reinforcement learning agent equipped with a novel transformer memory that learns motion policies to control its camera and microphone to recover the dynamic target audio, using self-attention to make high-quality estimates for current timesteps and also simultaneously improve its past estimates. Using highly realistic acoustic SoundSpaces simulations in real-world scanned Matterport3D environments, we show that our model is able to learn efficient behavior to carry out continuous separation of a dynamic audio target. Project: https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/.
updated: Mon Jul 25 2022 06:49:20 GMT+0000 (UTC)
published: Wed Feb 02 2022 02:03:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト