人間は、視覚と聴覚の両方のキューを使用して環境内のオブジェクトをローカライズし、複数のモダリティからの情報を共通の参照フレームに統合できます。ラベル付けされていないオーディオビジュアルデータを活用して、純粋に推論時のステレオサウンドを使用して、ビジュアルリファレンスフレーム内のオブジェクト(移動車両)のローカライズを学習できるシステムを導入します。オーディオとオブジェクトのバウンディングボックス間の対応に手動で注釈を付けるのは手間がかかるため、ラベル付けされていないビデオでのビジュアルストリームとオーディオストリームの共起を自己監視の形式として使用することにより、真実の注釈。特に、ビジョン「教師」ネットワークとステレオサウンド「学生」ネットワークで構成されるフレームワークを提案します。トレーニング中、定評のある視覚的な車両検知モデルに組み込まれた知識は、ラベルのないビデオをブリッジとして使用してオーディオドメインに転送されます。テスト時に、ステレオサウンドの学生ネットワークは独立して動作し、視覚的な入力なしでステレオオーディオとカメラメタデータのみを使用してオブジェクトのローカライズを実行できます。新しく収集されたAu-ditory Vehicle Trackingデータセットの実験結果は、提案されたアプローチがいくつかのベースラインアプローチよりも優れていることを確認します。また、クロスモーダル聴覚ローカリゼーションアプローチが、劣悪な照明条件下での移動車両の視覚的ローカリゼーションを支援できることを示します。
Humans are able to localize objects in the environment using both visual and auditory cues, integrating information from multiple modalities into a common reference frame. We introduce a system that can leverage unlabeled audio-visual data to learn to localize objects (moving vehicles) in a visual reference frame, purely using stereo sound at inference time. Since it is labor-intensive to manually annotate the correspondences between audio and object bounding boxes, we achieve this goal by using the co-occurrence of visual and audio streams in unlabeled videos as a form of self-supervision, without resorting to the collection of ground-truth annotations. In particular, we propose a framework that consists of a vision "teacher" network and a stereo-sound "student" network. During training, knowledge embodied in a well-established visual vehicle detection model is transferred to the audio domain using unlabeled videos as a bridge. At test time, the stereo-sound student network can work independently to perform object localization us-ing just stereo audio and camera meta-data, without any visual input. Experimental results on a newly collected Au-ditory Vehicle Tracking dataset verify that our proposed approach outperforms several baseline approaches. We also demonstrate that our cross-modal auditory localization approach can assist in the visual localization of moving vehicles under poor lighting conditions.