視覚的な音源分離は、視覚的な手がかりの存在下で、与えられた音の混合物から音の成分を識別することを目的としています。以前の研究は印象的な結果を示しましたが、大規模な多段アーキテクチャと複雑なデータ表現(オプティカルフローの軌跡など)を犠牲にしていました。対照的に、単一のビデオフレームのみを使用して、視覚的な音の分離のためのシンプルで効率的なモデルを研究します。さらに、私たちのモデルは、分離プロセスで音源カテゴリの情報を活用することができます。この目的のために、i)カテゴリラベルがトレーニング時に利用可能である、またはii)トレーニングサンプルペアが同じカテゴリからのものか異なるカテゴリからのものであるかがわかっていると仮定する2つのモデルを提案します。 MUSICデータセットを使用した実験は、私たちのモデルがいくつかの最近のベースライン方法と比較して同等以上のパフォーマンスを獲得していることを示しています。コードはhttps://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separationで入手できます。
Visual sound source separation aims at identifying sound components from a given sound mixture with the presence of visual cues. Prior works have demonstrated impressive results, but with the expense of large multi-stage architectures and complex data representations (e.g. optical flow trajectories). In contrast, we study simple yet efficient models for visual sound separation using only a single video frame. Furthermore, our models are able to exploit the information of the sound source category in the separation process. To this end, we propose two models where we assume that i) the category labels are available at the training time, or ii) we know if the training sample pairs are from the same or different category. The experiments with the MUSIC dataset show that our model obtains comparable or better performance compared to several recent baseline methods. The code is available at https://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separation