arXiv reaDer
実環境でのオーディオ ビジュアル アクティブ スピーカー検出用の 3 段階アーキテクチャを設計する方法
How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild
アクティブ スピーカーの検出を成功させるには、3 段階のパイプラインが必要です。(i) クリップ内のすべてのスピーカーのオーディオ ビジュアル エンコーディング、(ii) 各フレーム内の参照スピーカーとバックグラウンド スピーカー間のスピーカー間関係モデリング、および (iii) 時間的リファレンススピーカーのモデリング。このパイプラインの各ステージは、作成されたアーキテクチャの最終的なパフォーマンスに重要な役割を果たします。一連の制御された実験に基づいて、この作業は、オーディオ ビジュアルのアクティブ スピーカー検出のためのいくつかの実用的なガイドラインを示しています。これに対応して、ASDNet と呼ばれる新しいアーキテクチャを提示します。これは、AVA-ActiveSpeaker データセットで最新の最先端を達成し、93.5% の mAP で 2 番目に優れたデータセットを 4.7% の大きなマージンで上回っています。私たちのコードと事前トレーニング済みモデルは公開されています。
Successful active speaker detection requires a three-stage pipeline: (i) audio-visual encoding for all speakers in the clip, (ii) inter-speaker relation modeling between a reference speaker and the background speakers within each frame, and (iii) temporal modeling for the reference speaker. Each stage of this pipeline plays an important role for the final performance of the created architecture. Based on a series of controlled experiments, this work presents several practical guidelines for audio-visual active speaker detection. Correspondingly, we present a new architecture called ASDNet, which achieves a new state-of-the-art on the AVA-ActiveSpeaker dataset with a mAP of 93.5% outperforming the second best with a large margin of 4.7%. Our code and pretrained models are publicly available.
updated: Mon Jun 07 2021 19:44:56 GMT+0000 (UTC)
published: Mon Jun 07 2021 19:44:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト