arXiv reaDer
Minus-Plus Netを使用した再帰的な視覚的サウンド分離
Recursive Visual Sound Separation Using Minus-Plus Net
  サウンドは、多くのタスクに対して、視覚データを補完する豊富なセマンティクスを提供します。ただし、実際には、複数のソースからのサウンドが混合されることがよくあります。この論文では、視覚的音分離のタスクのために、MinusPlus Network(MP-Net)と呼ばれる新しいフレームワークを提案します。 MP-Netは、平均エネルギーの順序で音を再帰的に分離し、混合が空になるかノイズのみが含まれるまで、各予測の最後に混合物から分離された音を除去します。このようにして、MP-Netは、任意の数と種類の音の混合音に適用できます。さらに、MP-Netは混合物から大きなエネルギーの音を除去し続けますが、小さなエネルギーの音はより明確になり、分離がより正確になる可能性があります。従来の方法と比較して、MP-Netは、さまざまなタイプと数のサウンドが混在する2つの大規模なデータセットで最新の結果を取得します。
Sounds provide rich semantics, complementary to visual data, for many tasks. However, in practice, sounds from multiple sources are often mixed together. In this paper we propose a novel framework, referred to as MinusPlus Network (MP-Net), for the task of visual sound separation. MP-Net separates sounds recursively in the order of average energy, removing the separated sound from the mixture at the end of each prediction, until the mixture becomes empty or contains only noise. In this way, MP-Net could be applied to sound mixtures with arbitrary numbers and types of sounds. Moreover, while MP-Net keeps removing sounds with large energy from the mixture, sounds with small energy could emerge and become clearer, so that the separation is more accurate. Compared to previous methods, MP-Net obtains state-of-the-art results on two large scale datasets, across mixtures with different types and numbers of sounds.
updated: Wed Oct 23 2019 07:32:46 GMT+0000 (UTC)
published: Fri Aug 30 2019 09:05:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト