arXiv reaDer
AVA-AVD:野生の視聴覚スピーカーのダイアリゼーション
AVA-AVD: Audio-visual Speaker Diarization in the Wild
視聴覚スピーカーのダイアリゼーションは、聴覚信号と視覚信号の両方を使用して、「誰がいつ話したか」を検出することを目的としています。既存の視聴覚ダイアリゼーションデータセットは、主に会議室やニューススタジオなどの屋内環境に焦点を当てています。これらは、映画、ドキュメンタリー、観客のシットコムなどの多くのシナリオでの実際のビデオとはまったく異なります。野生のビデオのダイアリゼーション方法を効果的に比較できるテストベッドを作成するために、AVAムービーデータセットのスピーカーダイアリゼーションラベルに注釈を付け、AVA-AVDと呼ばれる新しいベンチマークを作成します。このベンチマークは、多様なシーン、複雑な音響条件、および完全にオフスクリーンのスピーカーのために困難です。それでも、オフスクリーンスピーカーとオンスクリーンスピーカーを一緒に扱う方法は依然として重要な課題です。それを克服するために、我々は、可視性に基づいて識別情報をキャプチャするための効果的なモダリティマスクを導入する新しい視聴覚関係ネットワーク(AVR-Net)を提案します。実験によると、私たちの方法は最先端の方法よりも優れているだけでなく、オフスクリーンスピーカーの比率を変えることでより堅牢であることが示されています。アブレーション研究は、提案されたAVR-Net、特にダイアリゼーションにおけるモダリティマスクの利点を示しています。当社のデータとコードは一般に公開されます。
Audio-visual speaker diarization aims at detecting ``who spoken when`` using both auditory and visual signals. Existing audio-visual diarization datasets are mainly focused on indoor environments like meeting rooms or news studios, which are quite different from in-the-wild videos in many scenarios such as movies, documentaries, and audience sitcoms. To create a testbed that can effectively compare diarization methods on videos in the wild, we annotate the speaker diarization labels on the AVA movie dataset and create a new benchmark called AVA-AVD. This benchmark is challenging due to the diverse scenes, complicated acoustic conditions, and completely off-screen speakers. Yet, how to deal with off-screen and on-screen speakers together still remains a critical challenge. To overcome it, we propose a novel Audio-Visual Relation Network (AVR-Net) which introduces an effective modality mask to capture discriminative information based on visibility. Experiments have shown that our method not only can outperform state-of-the-art methods but also is more robust as varying the ratio of off-screen speakers. Ablation studies demonstrate the advantages of the proposed AVR-Net and especially the modality mask on diarization. Our data and code will be made publicly available.
updated: Mon Nov 29 2021 11:02:41 GMT+0000 (UTC)
published: Mon Nov 29 2021 11:02:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト