arXiv reaDer
ビジュアルサウンドのローカライズは簡単な方法
Localizing Visual Sounds the Easy Way
教師なし視聴覚ソースのローカリゼーションは、トレーニングのためにグラウンドトゥルースのローカリゼーションに依存することなく、ビデオ内の可視音源をローカライズすることを目的としています。以前の作品は、多くの場合、ポジティブ(サウンド)領域の可能性が高い視聴覚類似性と、ネガティブ領域の可能性が低い類似性を求めています。ただし、手動の注釈がないと、発音している領域と鳴っていない領域を正確に区別することは困難です。この作業では、トレーニング中のポジティブおよび/またはネガティブ領域の構築に依存することなく、Easy Visual Sound Localization、つまりEZ-VSLのシンプルで効果的なアプローチを提案します。代わりに、関連する画像の少なくとも1つの場所に位置合わせされ、他の画像とは一致しないオーディオビジュアル表現を任意の場所で探すことにより、オーディオ空間と視覚空間を位置合わせします。また、精度を向上させるために、推論時に新しいオブジェクト誘導ローカリゼーションスキームを紹介します。私たちのシンプルで効果的なフレームワークは、2つの人気のあるベンチマークであるFlickrSoundNetとVGG-SoundSourceで最先端のパフォーマンスを実現します。特に、Flickr SoundNetテストセットのCIoUを76.80%から83.94%に改善し、VGG-Sound Sourceデータセットを34.60%から38.85%に改善しました。コードはhttps://github.com/stoneMo/EZ-VSLで入手できます。
Unsupervised audio-visual source localization aims at localizing visible sound sources in a video without relying on ground-truth localization for training. Previous works often seek high audio-visual similarities for likely positive (sounding) regions and low similarities for likely negative regions. However, accurately distinguishing between sounding and non-sounding regions is challenging without manual annotations. In this work, we propose a simple yet effective approach for Easy Visual Sound Localization, namely EZ-VSL, without relying on the construction of positive and/or negative regions during training. Instead, we align audio and visual spaces by seeking audio-visual representations that are aligned in, at least, one location of the associated image, while not matching other images, at any location. We also introduce a novel object guided localization scheme at inference time for improved precision. Our simple and effective framework achieves state-of-the-art performance on two popular benchmarks, Flickr SoundNet and VGG-Sound Source. In particular, we improve the CIoU of the Flickr SoundNet test set from 76.80% to 83.94%, and on the VGG-Sound Source dataset from 34.60% to 38.85%. The code is available at https://github.com/stoneMo/EZ-VSL.
updated: Thu Mar 17 2022 13:52:58 GMT+0000 (UTC)
published: Thu Mar 17 2022 13:52:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト