arXiv reaDer
UniCon: Unified Context Network for Robust Active Speaker Detection
堅牢なアクティブスピーカー検出(ASD)のための新しい効率的なフレームワークであるUnified Context Network(UniCon)を紹介します。 ASDの従来の方法は、通常、各候補者の事前にトリミングされたフェイストラックで個別に動作し、候補者間の関係を十分に考慮していません。これにより、特に低解像度の顔や複数の候補者などの困難なシナリオで、パフォーマンスが制限される可能性があります。私たちのソリューションは、複数のタイプのコンテキスト情報を共同でモデル化することに焦点を当てた新しい統合フレームワークです。顔、候補者間の視覚的関係をキャプチャし、視聴覚の親和性を相互に対比するための関係コンテキスト、および長期情報を集約して地域の不確実性を滑らかにするための時間的コンテキスト。このような情報に基づいて、私たちのモデルは、堅牢で信頼性の高いASDのために、統一されたプロセスですべての候補者を最適化します。徹底的なアブレーション研究は、さまざまな設定の下でいくつかの挑戦的なASDベンチマークで実行されます。特に、私たちの方法は、2つの挑戦的なサブセット(1つは3人の候補スピーカー、もう1つは64ピクセル未満の顔)で、平均精度(mAP)絶対値の約15%という大きなマージンで最先端を上回っています。合わせて、UniConはAVA-ActiveSpeaker検証セットで92.0%のmAPを達成し、提出時にこのやりがいのあるデータセットで初めて90%を超えました。プロジェクトのウェブサイト:。
We introduce a new efficient framework, the Unified Context Network (UniCon), for robust active speaker detection (ASD). Traditional methods for ASD usually operate on each candidate's pre-cropped face track separately and do not sufficiently consider the relationships among the candidates. This potentially limits performance, especially in challenging scenarios with low-resolution faces, multiple candidates, etc. Our solution is a novel, unified framework that focuses on jointly modeling multiple types of contextual information: spatial context to indicate the position and scale of each candidate's face, relational context to capture the visual relationships among the candidates and contrast audio-visual affinities with each other, and temporal context to aggregate long-term information and smooth out local uncertainties. Based on such information, our model optimizes all candidates in a unified process for robust and reliable ASD. A thorough ablation study is performed on several challenging ASD benchmarks under different settings. In particular, our method outperforms the state-of-the-art by a large margin of about 15% mean Average Precision (mAP) absolute on two challenging subsets: one with three candidate speakers, and the other with faces smaller than 64 pixels. Together, our UniCon achieves 92.0% mAP on the AVA-ActiveSpeaker validation set, surpassing 90% for the first time on this challenging dataset at the time of submission. Project website:
updated: Thu Aug 05 2021 13:25:44 GMT+0000 (UTC)
published: Thu Aug 05 2021 13:25:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト