このペーパーの目的は、「自然界で」収集されたビデオの話者ダイアライゼーションです。私たちは3つの重要な貢献をします。まず、YouTubeビデオの自動視聴覚診断方法を提案します。私たちの方法は、視聴覚手法を使用したアクティブな話者検出と、自己登録スピーカーモデルを使用した話者検証で構成されています。次に、方法を半自動のデータセット作成パイプラインに統合します。これにより、ダイアリスレーションラベルで動画に注釈を付けるために必要な時間数が大幅に削減されます。最後に、このパイプラインを使用して、「野生の」ビデオから収集されたVoxConverseという大規模なダイアライゼーションデータセットを作成し、研究コミュニティに公開します。私たちのデータセットは、重なり合ったスピーチ、大きくて多様なスピーカープール、および困難な背景条件で構成されています。
The goal of this paper is speaker diarisation of videos collected 'in the wild'. We make three key contributions. First, we propose an automatic audio-visual diarisation method for YouTube videos. Our method consists of active speaker detection using audio-visual methods and speaker verification using self-enrolled speaker models. Second, we integrate our method into a semi-automatic dataset creation pipeline which significantly reduces the number of hours required to annotate videos with diarisation labels. Finally, we use this pipeline to create a large-scale diarisation dataset called VoxConverse, collected from 'in the wild' videos, which we will release publicly to the research community. Our dataset consists of overlapping speech, a large and diverse speaker pool, and challenging background conditions.