arXiv reaDer
クロスモーダルスピーカーの検証と認識:多言語の視点
Cross-modal Speaker Verification and Recognition: A Multilingual Perspective
 近年、話者認識とともに、クロスモーダル生体認証アプリケーション内で顔と声の関連付けを見つけることが急増しています。このことから発想を得て、同じ人物が話す複数の言語で顔と声の関連付けを確立する上での難しい課題を紹介します。このペーパーの目的は、2つの密接に関連する質問に答えることです。「顔と音声の関連付け言語は独立していますか?」と「話し言葉に関係なく話者を認識できますか?」これら2つの質問は、有効性を理解し、多言語生体認証システムの開発を促進するために非常に重要です。それらに答えるために、オンラインでアップロードされたさまざまなビデオから抽出された3つの言語注釈を含む154のアイデンティティの人間の音声クリップを含む多言語オーディオビジュアルデータセットを収集しました。提案されたデータセットの3つの分割に関する広範な実験が行われ、多言語問題の関連性を明確に指摘するこれらの新しい研究の質問が調査および回答されました。
Recent years have seen a surge in finding association between faces and voices within a cross-modal biometric application along with speaker recognition. Inspired from this, we introduce a challenging task in establishing association between faces and voices across multiple languages spoken by the same set of persons. The aim of this paper is to answer two closely related questions: "Is face-voice association language independent?" and "Can a speaker be recognised irrespective of the spoken language?". These two questions are very important to understand effectiveness and to boost development of multilingual biometric systems. To answer them, we collected a Multilingual Audio-Visual dataset, containing human speech clips of 154 identities with 3 language annotations extracted from various videos uploaded online. Extensive experiments on the three splits of the proposed dataset have been performed to investigate and answer these novel research questions that clearly point out the relevance of the multilingual problem.
updated: Thu Apr 22 2021 15:10:21 GMT+0000 (UTC)
published: Tue Apr 28 2020 19:15:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト