arXiv reaDer
効率的なビジュアルサウンド分離のためのV-SlowFastネットワーク
V-SlowFast Network for Efficient Visual Sound Separation
この論文の目的は、視覚的な音の分離を実行することです。i)異なる時間分解能のスペクトログラムで視覚的な音の分離を研究します。 ii)ビジュアルフレーム、低速スペクトログラム、高速スペクトログラムで動作する、軽量で効率的な新しい3ストリームフレームワークV-SlowFastを提案します。遅いスペクトログラムは粗い時間分解能をキャプチャし、速いスペクトログラムはきめ細かい時間分解能を含みます。 iii)音を分離するための識別可能な視覚的特徴をネットワークが学習することを奨励するために、2つの対照的な目的を導入します。 iv)オーディオとビジュアル機能の融合のためのオーディオビジュアルグローバルアテンションモジュールを提案します。 v)導入されたV-SlowFastモデルは、小規模および大規模データセット(MUSIC-21、AVE、およびVGG-Sound)でのシングルフレームベースの視覚的サウンド分離において、以前の最先端技術を上回ります。また、以前の多段モデルと比較して、モデルパラメータの数を74.2%削減し、GMACを81.4%削減する、小さなV-SlowFastアーキテクチャバリアントを提案します。プロジェクトページ:https://ly-zhu.github.io/V-SlowFast
The objective of this paper is to perform visual sound separation: i) we study visual sound separation on spectrograms of different temporal resolutions; ii) we propose a new light yet efficient three-stream framework V-SlowFast that operates on Visual frame, Slow spectrogram, and Fast spectrogram. The Slow spectrogram captures the coarse temporal resolution while the Fast spectrogram contains the fine-grained temporal resolution; iii) we introduce two contrastive objectives to encourage the network to learn discriminative visual features for separating sounds; iv) we propose an audio-visual global attention module for audio and visual feature fusion; v) the introduced V-SlowFast model outperforms previous state-of-the-art in single-frame based visual sound separation on small- and large-scale datasets: MUSIC-21, AVE, and VGG-Sound. We also propose a small V-SlowFast architecture variant, which achieves 74.2% reduction in the number of model parameters and 81.4% reduction in GMACs compared to the previous multi-stage models. Project page: https://ly-zhu.github.io/V-SlowFast
updated: Tue Sep 21 2021 04:25:58 GMT+0000 (UTC)
published: Sat Sep 18 2021 07:44:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト