arXiv reaDer
リプレイ攻撃検出のためのバランスの取れた焦点損失によるデータの不一致の動的緩和
Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for Replay Attack Detection
高品質の再生デバイスの進歩により、脆弱な自動話者検証システム用の効果的ななりすまし防止アルゴリズムを設計することが急務になっています。現在の研究では主になりすまし防止を正真正銘の発話となりすましの発話の間のバイナリ分類問題として扱っていますが、見分けがつかないサンプルがないため、堅牢ななりすまし検出器をトレーニングすることは困難です。この論文では、スプーフィング防止のために、モデル化プロセスで簡単に分類できるサンプルよりも区別できないサンプルにもっと注意を払い、正しい識別を最優先事項にする必要があると主張します。したがって、トレーニングと推論の間のデータの不一致を軽減するために、サンプル自体の特性に基づいて損失を動的にスケーリングするためのトレーニング目的として、バランスの取れた焦点損失関数を活用する D3M を提案します。さらに、実験では、マグニチュードベースとフェーズベースの両方の情報を含む 3 種類の特徴を選択して、補完的で有益な特徴を形成します。 ASVspoof2019 データセットの実験結果は、私たちのシステムと最高のパフォーマンスを発揮するシステムとの比較により、提案された方法の優位性を示しています。バランス フォーカル ロスでトレーニングされたシステムは、従来のクロスエントロピー ロスよりも大幅に優れたパフォーマンスを発揮します。補完的な機能により、3 種類の機能のみを備えた融合システムは、5 つ以上の複雑な単一モデルを含む他のシステムよりも min-tDCF で 22.5%、EER で 7% 優れており、min-tDCF と EER はそれぞれ 0.0124 と 0.55% を達成しています。 .さらに、ASVspoof2019 のシミュレートされたデータとは別に、実際のリプレイ データでの評価結果を提示し、議論します。ソース コード、分析データ、およびその他の詳細は、https://github.com/asvspoof/D3Mhttps://github.com/asvspoof/D3M で公開されています。
It becomes urgent to design effective anti-spoofing algorithms for vulnerable automatic speaker verification systems due to the advancement of high-quality playback devices. Current studies mainly treat anti-spoofing as a binary classification problem between bonafide and spoofed utterances, while lack of indistinguishable samples makes it difficult to train a robust spoofing detector. In this paper, we argue that for anti-spoofing, it needs more attention for indistinguishable samples over easily-classified ones in the modeling process, to make correct discrimination a top priority. Therefore, to mitigate the data discrepancy between training and inference, we propose D3M, to leverage a balanced focal loss function as the training objective to dynamically scale the loss based on the traits of the sample itself. Besides, in the experiments, we select three kinds of features that contain both magnitude-based and phase-based information to form complementary and informative features. Experimental results on the ASVspoof2019 dataset demonstrate the superiority of the proposed methods by comparison between our systems and top-performing ones. Systems trained with the balanced focal loss perform significantly better than conventional cross-entropy loss. With complementary features, our fusion system with only three kinds of features outperforms other systems containing five or more complex single models by 22.5% for min-tDCF and 7% for EER, achieving a min-tDCF and an EER of 0.0124 and 0.55% respectively. Furthermore, we present and discuss the evaluation results on real replay data apart from the simulated ASVspoof2019 data, indicating that research for anti-spoofing still has a long way to go. Source code, analysis data, and other details are publicly available at https://github.com/asvspoof/D3Mhttps://github.com/asvspoof/D3M.
updated: Mon Jan 16 2023 19:44:13 GMT+0000 (UTC)
published: Thu Jun 25 2020 17:06:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト