arXiv reaDer
AudioScopeを使用したIntothe Wild:画面上のサウンドの教師なしオーディオビジュアル分離
Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds
ディープラーニングの最近の進歩により、音の分離と視覚的なシーンの理解に多くの進歩がもたらされました。ただし、自然なビデオで明らかな音源を抽出することは、未解決の問題のままです。この作業では、AudioScopeを紹介します。これは、監視なしでトレーニングして、画面上の音源を実際の野生のビデオから分離できる、新しいオーディオビジュアルサウンド分離フレームワークです。以前の視聴覚分離作業では、音声クラスのドメイン(音声や音楽など)に人為的な制限があり、音源の数が制限され、強力な音声分離または視覚セグメンテーションラベルが必要でした。 AudioScopeはこれらの制限を克服し、サウンドのオープンドメインで動作し、ソースの数は可変で、ラベルや事前の視覚的セグメンテーションはありません。 AudioScopeのトレーニング手順では、混合不変トレーニング(MixIT)を使用して、混合物の合成混合物(MoM)を個々のソースに分離します。混合物のノイズの多いラベルは、教師なし視聴覚一致モデルによって提供されます。ノイズの多いラベルを使用し、ビデオ機能とオーディオ機能の間の注意を払うことで、AudioScopeはオーディオビジュアルの類似性を識別し、画面外の音を抑制することを学習します。オープンドメインのYFCC100mビデオデータから抽出されたビデオクリップのデータセットを使用して、アプローチの有効性を示します。このデータセットには、制約のない条件で録音された多種多様なサウンドクラスが含まれているため、以前の方法の適用は不適切です。評価と半教師あり実験のために、クリップの小さなサブセットに画面上の音と画面外の音が存在するかどうかを示す人間のラベルを収集しました。
Recent progress in deep learning has enabled many advances in sound separation and visual scene understanding. However, extracting sound sources which are apparent in natural videos remains an open problem. In this work, we present AudioScope, a novel audio-visual sound separation framework that can be trained without supervision to isolate on-screen sound sources from real in-the-wild videos. Prior audio-visual separation work assumed artificial limitations on the domain of sound classes (e.g., to speech or music), constrained the number of sources, and required strong sound separation or visual segmentation labels. AudioScope overcomes these limitations, operating on an open domain of sounds, with variable numbers of sources, and without labels or prior visual segmentation. The training procedure for AudioScope uses mixture invariant training (MixIT) to separate synthetic mixtures of mixtures (MoMs) into individual sources, where noisy labels for mixtures are provided by an unsupervised audio-visual coincidence model. Using the noisy labels, along with attention between video and audio features, AudioScope learns to identify audio-visual similarity and to suppress off-screen sounds. We demonstrate the effectiveness of our approach using a dataset of video clips extracted from open-domain YFCC100m video data. This dataset contains a wide diversity of sound classes recorded in unconstrained conditions, making the application of previous methods unsuitable. For evaluation and semi-supervised experiments, we collected human labels for presence of on-screen and off-screen sounds on a small subset of clips.
updated: Mon Nov 02 2020 17:36:13 GMT+0000 (UTC)
published: Mon Nov 02 2020 17:36:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト