オーディオのノイズ除去は、従来の手法とディープ ラーニング ベースの手法の両方を使用して、何十年にもわたって研究されてきました。ただし、これらの方法は、手動で人工的なノイズを追加するか、ノイズを除去したオーディオ品質を下げることにまだ制限されています。これらの課題を克服するために、大規模な自然騒音の鳥の音のデータセットを収集します。私たちは、音声ノイズ除去問題を画像セグメンテーション問題に変換し、ディープ ビジュアル オーディオ ノイズ除去 (DVAD) モデルを提案した最初の企業です。合計 14,120 の音声画像を使用して、音声 ImageMask ツールを開発し、これらの画像にラベルを付けるために少数ショットの一般化戦略を使用することを提案します。広範な実験結果は、提案されたモデルが最先端のパフォーマンスを達成することを示しています。また、私たちの方法が音声ノイズ除去、オーディオ分離、オーディオ強調、およびノイズ推定に簡単に一般化できることも示します。
Audio denoising has been explored for decades using both traditional and deep learning-based methods. However, these methods are still limited to either manually added artificial noise or lower denoised audio quality. To overcome these challenges, we collect a large-scale natural noise bird sound dataset. We are the first to transfer the audio denoising problem into an image segmentation problem and propose a deep visual audio denoising (DVAD) model. With a total of 14,120 audio images, we develop an audio ImageMask tool and propose to use a few-shot generalization strategy to label these images. Extensive experimental results demonstrate that the proposed model achieves state-of-the-art performance. We also show that our method can be easily generalized to speech denoising, audio separation, audio enhancement, and noise estimation.