オーディオビジュアル セグメンテーション (AVS) タスクは、特定のビデオから音声オブジェクトをセグメント化することを目的としています。既存の作品は主に、特定のビデオのオーディオとビジュアルの特徴を融合してサウンドオブジェクトマスクを実現することに焦点を当てています。しかしながら、我々は、従来技術では、音声情報に関係なく、ビデオ内の特定の顕著なオブジェクトをセグメント化する傾向があることを観察した。これは、音響オブジェクトが AVS データセット内で最も顕著なものであることが多いためです。したがって、現在の AVS 手法では、データセットのバイアスにより、本物の測深天体の位置を特定できない可能性があります。この研究では、データセットのバイアスを克服するための、オーディオビジュアルのインスタンスを意識したセグメンテーションのアプローチを紹介します。簡単に言うと、私たちの方法は、最初にオブジェクトセグメンテーションネットワークによってビデオ内の潜在的なサウンドオブジェクトの位置を特定し、次にサウンドオブジェクトの候補を指定されたオーディオに関連付けます。あるビデオでは物体が音を出しているのに、別のビデオでは物体が沈黙している可能性があることに気づきました。これにより、対応するセグメンテーション マスクを持つのは音響オブジェクトのみであるため、オブジェクト セグメンテーション ネットワークのトレーニングに曖昧さが生じます。したがって、曖昧さを軽減するために、サイレントオブジェクト認識セグメンテーション目標を提案します。さらに、特に複数の音源の場合、オーディオのカテゴリ情報が不明であるため、オーディオと視覚の意味論的な相関関係を調査し、オーディオを潜在的なオブジェクトと関連付けることを提案します。具体的には、予測されたオーディオ カテゴリ スコアを潜在的なインスタンス マスクに関連付けます。これらのスコアは、聞こえないインスタンスを抑制しながら、対応するサウンド インスタンスを強調表示します。在席インスタンス マスクをグラウンド トゥルース マスクに似せるように強制すると、オーディオとビジュアルのセマンティクスの相関関係を確立できます。 AVS ベンチマークの実験結果は、私たちの方法が顕著なオブジェクトに偏ることなく、音響オブジェクトを効果的にセグメント化できることを示しています。
The audio-visual segmentation (AVS) task aims to segment sounding objects from a given video. Existing works mainly focus on fusing audio and visual features of a given video to achieve sounding object masks. However, we observed that prior arts are prone to segment a certain salient object in a video regardless of the audio information. This is because sounding objects are often the most salient ones in the AVS dataset. Thus, current AVS methods might fail to localize genuine sounding objects due to the dataset bias. In this work, we present an audio-visual instance-aware segmentation approach to overcome the dataset bias. In a nutshell, our method first localizes potential sounding objects in a video by an object segmentation network, and then associates the sounding object candidates with the given audio. We notice that an object could be a sounding object in one video but a silent one in another video. This would bring ambiguity in training our object segmentation network as only sounding objects have corresponding segmentation masks. We thus propose a silent object-aware segmentation objective to alleviate the ambiguity. Moreover, since the category information of audio is unknown, especially for multiple sounding sources, we propose to explore the audio-visual semantic correlation and then associate audio with potential objects. Specifically, we attend predicted audio category scores to potential instance masks and these scores will highlight corresponding sounding instances while suppressing inaudible ones. When we enforce the attended instance masks to resemble the ground-truth mask, we are able to establish audio-visual semantics correlation. Experimental results on the AVS benchmarks demonstrate that our method can effectively segment sounding objects without being biased to salient objects.