arXiv reaDer
共同音声ジェスチャキューを使用した話者抽出
Speaker Extraction with Co-Speech Gestures Cue
話者抽出は、マルチトーカー混合スピーチからターゲットスピーカーのクリーンなスピーチを抽出しようとします。事前に録音された音声サンプルまたはターゲットスピーカーの顔画像をスピーカーキューとして使用する研究があります。人間のコミュニケーションでは、自然に発話のタイミングをとる共同発話ジェスチャも発話知覚に寄与します。この作業では、低解像度のビデオ録画から簡単に取得できるため、顔の録画よりも利用しやすい話者抽出の話者キューとして、手や体の動きなどの共同音声ジェスチャシーケンスの使用を検討します。共同音声ジェスチャキューを使用してターゲットスピーカーで注意深いリスニングを実行する2つのネットワークを提案します。1つは話者抽出プロセスで共同音声ジェスチャキューを暗黙的に融合し、もう1つは最初に音声分離を実行し、次に共同音声を明示的に使用します。スピーチジェスチャは、分離されたスピーチをターゲットスピーカーに関連付けるための合図です。実験結果は、共同スピーチジェスチャキューがターゲットスピーカーとの関連付けに有益であることを示しています。
Speaker extraction seeks to extract the clean speech of a target speaker from a multi-talker mixture speech. There have been studies to use a pre-recorded speech sample or face image of the target speaker as the speaker cue. In human communication, co-speech gestures that are naturally timed with speech also contribute to speech perception. In this work, we explore the use of co-speech gestures sequence, e.g. hand and body movements, as the speaker cue for speaker extraction, which could be easily obtained from low-resolution video recordings, thus more available than face recordings. We propose two networks using the co-speech gestures cue to perform attentive listening on the target speaker, one that implicitly fuses the co-speech gestures cue in the speaker extraction process, the other performs speech separation first, followed by explicitly using the co-speech gestures cue to associate a separated speech to the target speaker. The experimental results show that the co-speech gestures cue is informative in associating with the target speaker.
updated: Tue May 10 2022 05:36:08 GMT+0000 (UTC)
published: Thu Mar 31 2022 06:48:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト