arXiv reaDer
バイノーラルSoundNet:バイノーラルサウンドでセマンティクス、深さ、動きを予測する
Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural Sounds
人間は、視覚的および/または聴覚的手がかりを使用して、オブジェクトを確実に認識およびローカライズできます。機械はすでに視覚データで同じことを行うことができますが、音で行われる作業は少なくなっています。この作品は、純粋にバイノーラルサウンドに基づいてシーンを理解するためのアプローチを開発します。考慮されるタスクには、音を出すオブジェクトのセマンティックマスク、音を出すオブジェクトの動き、およびシーンの深度マップの予測が含まれます。この目的のために、新しいセンサーセットアップを提案し、8つのプロ仕様のバイノーラルマイクと360度カメラを使用してストリートシーンの新しいオーディオビジュアルデータセットを記録します。視覚的手がかりと音声的手がかりの共存は、監督の転送に活用されます。特に、複数のビジョンティーチャーメソッドと健全なスチューデントメソッドで構成されるクロスモーダル蒸留フレームワークを採用しています。スチューデントメソッドは、ティーチャーメソッドと同じ結果を生成するようにトレーニングされています。このようにして、人間の注釈を使用せずに聴覚システムをトレーニングできます。パフォーマンスをさらに向上させるために、サウンドの指向性解像度を高めるために、別の新しい補助タスクである空間サウンド超解像を提案します。次に、全体的なパフォーマンスの向上を目的として、4つのタスクを1つのエンドツーエンドのトレーニング可能なマルチタスクネットワークに定式化します。実験結果は、1)私たちの方法が4つのタスクすべてで良好な結果を達成すること、2)4つのタスクが相互に有益であることを示しています-それらを一緒にトレーニングすると最高のパフォーマンスが達成されます、3)マイクの数と向きの両方が重要です、4)機能標準的なスペクトログラムから学習し、古典的な信号処理パイプラインによって得られた機能は、聴覚タスクを補完します。データとコードが公開されます。
Humans can robustly recognize and localize objects by using visual and/or auditory cues. While machines are able to do the same with visual data already, less work has been done with sounds. This work develops an approach for scene understanding purely based on binaural sounds. The considered tasks include predicting the semantic masks of sound-making objects, the motion of sound-making objects, and the depth map of the scene. To this aim, we propose a novel sensor setup and record a new audio-visual dataset of street scenes with eight professional binaural microphones and a 360-degree camera. The co-existence of visual and audio cues is leveraged for supervision transfer. In particular, we employ a cross-modal distillation framework that consists of multiple vision teacher methods and a sound student method -- the student method is trained to generate the same results as the teacher methods do. This way, the auditory system can be trained without using human annotations. To further boost the performance, we propose another novel auxiliary task, coined Spatial Sound Super-Resolution, to increase the directional resolution of sounds. We then formulate the four tasks into one end-to-end trainable multi-tasking network aiming to boost the overall performance. Experimental results show that 1) our method achieves good results for all four tasks, 2) the four tasks are mutually beneficial -- training them together achieves the best performance, 3) the number and orientation of microphones are both important, and 4) features learned from the standard spectrogram and features obtained by the classic signal processing pipeline are complementary for auditory perception tasks. The data and code are released.
updated: Mon Sep 06 2021 22:24:00 GMT+0000 (UTC)
published: Mon Sep 06 2021 22:24:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト