arXiv reaDer
FaVoA:顔と声の関連付けは、あいまいな話者検出を支持します
FaVoA: Face-Voice Association Favours Ambiguous Speaker Detection
顔と音声の強い関係は、困難な設定でも、話者の顔がはっきりしない場合、または同じシーンに複数の人がいる場合でも、顔が見えるときにアクティブスピーカー検出システムを支援することができます。人の正面の顔の表情を彼/彼女のスピーチから推定することができることにより、口の動きが検出されない困難な場合でも、彼/彼女がアクティブスピーカーとして分類される可能性のある候補であるかどうかを判断することが容易になります。同じシーンの誰からでも。顔と音声の関連付けニューラルネットワークを既存の最先端のアクティブスピーカー検出モデルに組み込むことにより、特にあいまいなシナリオを正しく分類できるニューラルネットワークモデルであるFaVoA(顔と音声の関連付けあいまいな話者検出器)を紹介します。 FaVoAは、肯定的な関連付けを見つけるだけでなく、顔が音声と一致しない、一致しない顔と音声の関連付けを除外するのに役立ちます。これらのモデルを融合するためのゲート付きバイモーダルユニットアーキテクチャの使用は、各モダリティが分類にどの程度貢献しているかを定量的に決定する方法を提供します。
The strong relation between face and voice can aid active speaker detection systems when faces are visible, even in difficult settings, when the face of a speaker is not clear or when there are several people in the same scene. By being capable of estimating the frontal facial representation of a person from his/her speech, it becomes easier to determine whether he/she is a potential candidate for being classified as an active speaker, even in challenging cases in which no mouth movement is detected from any person in that same scene. By incorporating a face-voice association neural network into an existing state-of-the-art active speaker detection model, we introduce FaVoA (Face-Voice Association Ambiguous Speaker Detector), a neural network model that can correctly classify particularly ambiguous scenarios. FaVoA not only finds positive associations, but helps to rule out non-matching face-voice associations, where a face does not match a voice. Its use of a gated-bimodal-unit architecture for the fusion of those models offers a way to quantitatively determine how much each modality contributes to the classification.
updated: Wed Sep 01 2021 19:08:15 GMT+0000 (UTC)
published: Wed Sep 01 2021 19:08:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト