arXiv reaDer
AVA-AVD:野生の視聴覚スピーカーのダイアリゼーション
AVA-AVD: Audio-Visual Speaker Diarization in the Wild
視聴覚スピーカーのダイアリゼーションは、聴覚信号と視覚信号の両方を使用して「誰がいつ話したか」を検出することを目的としています。既存の視聴覚ダイアリゼーションデータセットは、主に会議室やニューススタジオなどの屋内環境に焦点を当てています。これらは、映画、ドキュメンタリー、視聴者のシットコムなどの多くのシナリオでの実際のビデオとはまったく異なります。これらのやりがいのあるビデオのダイアリゼーション方法を開発するために、AVAオーディオビジュアルダイアリゼーション(AVA-AVD)データセットを作成します。私たちの実験は、トレーニングセットにAVA-AVDを追加すると、データが比較的小さいにもかかわらず、野生のビデオに対して非常に優れたダイアリゼーションモデルを生成できることを示しています。さらに、このベンチマークは、多様なシーン、複雑な音響条件、および完全にオフスクリーンのスピーカーのために困難です。課題に取り組むための最初のステップとして、顔の可視性に基づいて識別情報をキャプチャするためのシンプルで効果的なモダリティマスクを導入する視聴覚関係ネットワーク(AVR-Net)を設計します。実験によると、私たちの方法は、最先端の方法よりも優れているだけでなく、オフスクリーンスピーカーの比率を変えることでより堅牢になります。私たちのデータとコードはhttps://github.com/showlab/AVA-AVDで公開されています。
Audio-visual speaker diarization aims at detecting "who spoke when" using both auditory and visual signals. Existing audio-visual diarization datasets are mainly focused on indoor environments like meeting rooms or news studios, which are quite different from in-the-wild videos in many scenarios such as movies, documentaries, and audience sitcoms. To develop diarization methods for these challenging videos, we create the AVA Audio-Visual Diarization (AVA-AVD) dataset. Our experiments demonstrate that adding AVA-AVD into training set can produce significantly better diarization models for in-the-wild videos despite that the data is relatively small. Moreover, this benchmark is challenging due to the diverse scenes, complicated acoustic conditions, and completely off-screen speakers. As a first step towards addressing the challenges, we design the Audio-Visual Relation Network (AVR-Net) which introduces a simple yet effective modality mask to capture discriminative information based on face visibility. Experiments show that our method not only can outperform state-of-the-art methods but is more robust as varying the ratio of off-screen speakers. Our data and code has been made publicly available at https://github.com/showlab/AVA-AVD.
updated: Wed Jul 13 2022 02:55:35 GMT+0000 (UTC)
published: Mon Nov 29 2021 11:02:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト