arXiv reaDer
オープン セット シナリオにおける変換器ベースの音声合成装置の帰属
Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario
音声合成方法は、詐欺、スプーフィング、および誤報キャンペーンに使用される可能性のあるリアルな音声を作成できます。このような攻撃からの保護には、合成音声を検出するフォレンジック手法が重要です。法医学的帰属方法は、音声信号の作成に使用される特定の音声合成方法 (つまり、音声合成装置) を識別するため、合成音声信号の性質に関するさらに多くの情報を提供します。リアルなサウンドの音声シンセサイザーの数が増加しているため、トレーニング中に見られない新しいシンセサイザーに一般化する音声帰属方法を提案します。そのために、クローズド セット シナリオとオープン セット シナリオの両方で音声合成装置の属性を調査します。言い換えれば、いくつかの音声シンセサイザーを「既知の」シンセサイザー (つまり、クローズド セットの一部) と見なし、その他を「未知の」シンセサイザー (つまり、オープン セットの一部) と見なします。音声信号をスペクトログラムとして表し、コンパクト アトリビューション トランスフォーマー (CAT) として知られる提案された方法を、マルチクラス分類用のクローズド セットでトレーニングします。次に、分析をオープンセットに拡張して、合成された音声信号を既知および未知の両方のシンセサイザーに帰属させます。訓練された CAT の潜在空間に t 分布確率的近隣埋め込み (tSNE) を利用して、未知の各シンセサイザーを区別します。さらに、アトリビューションの結果を改善するために、poly-1 損失の定式化を検討します。提案されたアプローチは、閉じたセットと開いたセットの両方のシナリオで、合成された音声信号をそれぞれの音声シンセサイザーに正常に関連付けます。
Speech synthesis methods can create realistic-sounding speech, which may be used for fraud, spoofing, and misinformation campaigns. Forensic methods that detect synthesized speech are important for protection against such attacks. Forensic attribution methods provide even more information about the nature of synthesized speech signals because they identify the specific speech synthesis method (i.e., speech synthesizer) used to create a speech signal. Due to the increasing number of realistic-sounding speech synthesizers, we propose a speech attribution method that generalizes to new synthesizers not seen during training. To do so, we investigate speech synthesizer attribution in both a closed set scenario and an open set scenario. In other words, we consider some speech synthesizers to be "known" synthesizers (i.e., part of the closed set) and others to be "unknown" synthesizers (i.e., part of the open set). We represent speech signals as spectrograms and train our proposed method, known as compact attribution transformer (CAT), on the closed set for multi-class classification. Then, we extend our analysis to the open set to attribute synthesized speech signals to both known and unknown synthesizers. We utilize a t-distributed stochastic neighbor embedding (tSNE) on the latent space of the trained CAT to differentiate between each unknown synthesizer. Additionally, we explore poly-1 loss formulations to improve attribution results. Our proposed approach successfully attributes synthesized speech signals to their respective speech synthesizers in both closed and open set scenarios.
updated: Fri Oct 14 2022 05:55:21 GMT+0000 (UTC)
published: Fri Oct 14 2022 05:55:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト