人間の話者から録音された音声と知覚的に区別できない高品質の合成音声信号を生成するツールは、簡単に入手できます。合成音声を検出するためのいくつかのアプローチが提案されています。これらのアプローチの多くは、深層学習手法をブラック ボックスとして使用しており、決定の理由を提供していません。これにより、これらのアプローチの解釈可能性が制限されます。この論文では、合成音声を検出するための音声信号の解釈可能な表現を生成するために、もつれた表現学習を使用して音声のスペクトログラムを処理する、2 段階のトレーニング済み変分オートエンコーダーである Disentangled Spectrogram Variational Auto Encoder (DSVAE) を提案します。 DSVAE はまた、活性化マップを作成して、合成音声信号と正真正銘の人間の音声信号を区別するスペクトログラム領域を強調表示します。 ASVspoof2019 データセットを使用して、DSVAE から取得した表現を評価しました。私たちの実験結果は、6 つの既知の音声シンセサイザーと 11 の未知の音声シンセサイザーのうちの 10 からの合成音声の検出で高い精度 (>98%) を示しています。また、17 の異なる音声シンセサイザーの DSVAE から得られた表現を視覚化し、それらが実際に解釈可能であり、各シンセサイザーからの本物の音声と合成音声を区別することを確認します。
Tools to generate high quality synthetic speech signal that is perceptually indistinguishable from speech recorded from human speakers are easily available. Several approaches have been proposed for detecting synthetic speech. Many of these approaches use deep learning methods as a black box without providing reasoning for the decisions they make. This limits the interpretability of these approaches. In this paper, we propose Disentangled Spectrogram Variational Auto Encoder (DSVAE) which is a two staged trained variational autoencoder that processes spectrograms of speech using disentangled representation learning to generate interpretable representations of a speech signal for detecting synthetic speech. DSVAE also creates an activation map to highlight the spectrogram regions that discriminate synthetic and bona fide human speech signals. We evaluated the representations obtained from DSVAE using the ASVspoof2019 dataset. Our experimental results show high accuracy (>98%) on detecting synthetic speech from 6 known and 10 out of 11 unknown speech synthesizers. We also visualize the representation obtained from DSVAE for 17 different speech synthesizers and verify that they are indeed interpretable and discriminate bona fide and synthetic speech from each of the synthesizers.