arXiv reaDer
スピーカーのダイアリゼーションのための凝集型階層的クラスタリング(AHC)を使用したBi-LSTMスコアリングベースの類似性測定
Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization
さまざまなシナリオにわたる音声信号の大部分は、単一のスピーカーのみを含む明確に定義されたオーディオセグメントでは利用できません。 2人の話者間の典型的な会話は、複数の文の間に声が重なる、互いに割り込む、またはスピーチを停止するセグメントで構成されます。ダイアリゼーション技術の最近の進歩は、ニューラルネットワークベースのアプローチを活用して、セグメントごとの埋め込み機能の抽出と会話中の話者の変化の検出からなる話者ダイアリゼーションシステムの複数のサブシステムを即興で作成します。ただし、クラスタリングを通じて話者を識別するために、モデルはPLDAなどの方法論に依存して、特定の会話型音声から抽出された2つのセグメント間の類似度を生成します。これらのアルゴリズムは会話の時間的構造を無視するため、より高いDiarization Error Rate(DER)を達成する傾向があり、話者と変更の識別の両方の観点から誤検出につながります。したがって、2つの音声セグメントの類似性を独立して順次比較するために、類似性マトリックスに存在する要素を推定するための双方向の長短期記憶ネットワークを提案します。類似性マトリックスが生成されると、Agglomerative Hierarchical Clustering(AHC)が適用され、しきい値に基づいて話者セグメントがさらに識別されます。パフォーマンスを評価するために、Diarization Error Rate(DER%)メトリックが使用されます。提案されたモデルは、39.90%のDERを達成した従来のPLDAベースの類似性測定メカニズムと比較して、ICSI Meeting Corpusから派生したオーディオサンプルのテストセットで34.80%の低いDERを達成します。
Majority of speech signals across different scenarios are never available with well-defined audio segments containing only a single speaker. A typical conversation between two speakers consists of segments where their voices overlap, interrupt each other or halt their speech in between multiple sentences. Recent advancements in diarization technology leverage neural network-based approaches to improvise multiple subsystems of speaker diarization system comprising of extracting segment-wise embedding features and detecting changes in the speaker during conversation. However, to identify speaker through clustering, models depend on methodologies like PLDA to generate similarity measure between two extracted segments from a given conversational audio. Since these algorithms ignore the temporal structure of conversations, they tend to achieve a higher Diarization Error Rate (DER), thus leading to misdetections both in terms of speaker and change identification. Therefore, to compare similarity of two speech segments both independently and sequentially, we propose a Bi-directional Long Short-term Memory network for estimating the elements present in the similarity matrix. Once the similarity matrix is generated, Agglomerative Hierarchical Clustering (AHC) is applied to further identify speaker segments based on thresholding. To evaluate the performance, Diarization Error Rate (DER%) metric is used. The proposed model achieves a low DER of 34.80% on a test set of audio samples derived from ICSI Meeting Corpus as compared to traditional PLDA based similarity measurement mechanism which achieved a DER of 39.90%.
updated: Thu May 19 2022 17:20:51 GMT+0000 (UTC)
published: Thu May 19 2022 17:20:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト