arXiv reaDer
エンドツーエンドのアクティブスピーカー検出
End-to-End Active Speaker Detection
アクティブスピーカー検出(ASD)問題の最近の進歩は、特徴抽出と時空間コンテキスト集約という2段階のプロセスに基づいています。この論文では、特徴学習と文脈予測を共同で学習するエンドツーエンドのASDワークフローを提案します。私たちのエンドツーエンドのトレーニング可能なネットワークは、マルチモーダル埋め込みを同時に学習し、時空間コンテキストを集約します。これにより、より適切な機能表現が得られ、ASDタスクのパフォーマンスが向上します。また、インターリーブグラフニューラルネットワーク(iGNN)ブロックを紹介します。これは、ASD問題のコンテキストの主なソースに従ってメッセージパッシングを分割します。実験によると、iGNNブロックからの集約された機能は、ASDにより適しているため、最先端のパフォーマンスが得られます。最後に、弱く監視された戦略を設計します。これは、ASDの問題は、視聴覚データを利用することによってもアプローチできるが、音声注釈のみに依存することを示しています。これは、オーディオ信号と可能な音源(スピーカー)との直接的な関係をモデル化し、対照的な損失を導入することで実現します。このプロジェクトのすべてのリソースは、https://github.com/fuankarion/end-to-end-asdで利用できるようになります。
Recent advances in the Active Speaker Detection (ASD) problem build upon a two-stage process: feature extraction and spatio-temporal context aggregation. In this paper, we propose an end-to-end ASD workflow where feature learning and contextual predictions are jointly learned. Our end-to-end trainable network simultaneously learns multi-modal embeddings and aggregates spatio-temporal context. This results in more suitable feature representations and improved performance in the ASD task. We also introduce interleaved graph neural network (iGNN) blocks, which split the message passing according to the main sources of context in the ASD problem. Experiments show that the aggregated features from the iGNN blocks are more suitable for ASD, resulting in state-of-the art performance. Finally, we design a weakly-supervised strategy, which demonstrates that the ASD problem can also be approached by utilizing audiovisual data but relying exclusively on audio annotations. We achieve this by modelling the direct relationship between the audio signal and the possible sound sources (speakers), as well as introducing a contrastive loss. All the resources of this project will be made available at: https://github.com/fuankarion/end-to-end-asd.
updated: Mon Jul 25 2022 10:41:21 GMT+0000 (UTC)
published: Sun Mar 27 2022 08:55:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト