arXiv reaDer
MarginNCE: 負のマージンを持つロバストなサウンド定位
MarginNCE: Robust Sound Localization with a Negative Margin
この作業の目標は、自己管理型のアプローチでビジュアル シーンの音源をローカライズすることです。音源定位のコンテキストでの対照的な学習は、オーディオ信号とビジュアル信号の間の自然な対応を活用します。この場合、同じソースからのオーディオとビジュアルのペアは正と見なされ、ランダムに選択されたペアは負と見なされます。ただし、このアプローチはノイズの多い通信をもたらします。たとえば、互いに無関係な正のオーディオとビジュアルのペア信号、または正の信号と意味的に類似したサンプルを含む可能性のある負のペアなどです。この作業における私たちの重要な貢献は、対照学習でより厳密でない決定境界を使用すると、音源定位におけるノイズの多い対応の影響を軽減できることを示すことです。対照的な損失を負のマージンでわずかに変更することにより、シンプルで効果的なアプローチを提案します。広範な実験結果は、私たちのアプローチが最先端の方法よりも同等またはそれ以上のパフォーマンスを提供することを示しています。さらに、既存の方法に負のマージンを導入すると、パフォーマンスが一貫して改善されることを示しています。
The goal of this work is to localize sound sources in visual scenes with a self-supervised approach. Contrastive learning in the context of sound source localization leverages the natural correspondence between audio and visual signals where the audio-visual pairs from the same source are assumed as positive, while randomly selected pairs are negatives. However, this approach brings in noisy correspondences; for example, positive audio and visual pair signals that may be unrelated to each other, or negative pairs that may contain semantically similar samples to the positive one. Our key contribution in this work is to show that using a less strict decision boundary in contrastive learning can alleviate the effect of noisy correspondences in sound source localization. We propose a simple yet effective approach by slightly modifying the contrastive loss with a negative margin. Extensive experimental results show that our approach gives on-par or better performance than the state-of-the-art methods. Furthermore, we demonstrate that the introduction of a negative margin to existing methods results in a consistent improvement in performance.
updated: Thu Nov 03 2022 16:44:14 GMT+0000 (UTC)
published: Thu Nov 03 2022 16:44:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト