arXiv reaDer
音声スプーフィング防止の一般化の予測因子としてのデータ品質
Data Quality as Predictor of Voice Anti-Spoofing Generalization
音声スプーフィング防止は、特定の音声入力を、本物の人間のサンプル、またはなりすまし攻撃(合成サンプルや再生サンプルなど)として分類することを目的としています。多数の音声スプーフィング防止方法が提案されていますが、それらのほとんどはドメイン(コーパス)間で一般化できていません。その理由はわかりません。なりすまし防止のパフォーマンスに対するデータ品質の影響を測定するための新しい解釈フレームワークの概要を説明します。ドメイン内およびドメイン間実験では、ガウス混合モデルと畳み込みニューラルネットワークモデルに基づいて、7つのパブリックコーパスと3つのスプーフィング防止方法からのデータをプールします。長期的なスペクトル情報、スピーカーの母集団(x-vectorスピーカーの埋め込みによる)、信号対雑音比、および選択された音声品質機能の影響を評価します。
Voice anti-spoofing aims at classifying a given speech input either as a bonafide human sample, or a spoofing attack (e.g. synthetic or replayed sample). Numerous voice anti-spoofing methods have been proposed but most of them fail to generalize across domains (corpora) -- and we do not know why. We outline a novel interpretative framework for gauging the impact of data quality upon anti-spoofing performance. Our within- and between-domain experiments pool data from seven public corpora and three anti-spoofing methods based on Gaussian mixture and convolutive neural network models. We assess the impacts of long-term spectral information, speaker population (through x-vector speaker embeddings), signal-to-noise ratio, and selected voice quality features.
updated: Fri Mar 26 2021 17:09:06 GMT+0000 (UTC)
published: Fri Mar 26 2021 17:09:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト