視聴覚質問応答 (AVQA) は、マルチモーダルなコンテキストに対するマルチステップの時空間推論を必要とする、困難なタスクです。人間と同様のシーン理解能力を達成するために、AVQA タスクには、音声情報と視覚情報を効果的に融合し、時間的同期を維持しながら質問に関連する視聴覚特徴をキャプチャするなど、特定の課題が提示されます。この論文では、これらの課題に対処するために、AVQA のためのターゲット認識型共同時空間グラウンディング ネットワークを提案します。提案されたアプローチには、ターゲット認識空間グラウンディング モジュール、トリモーダル一貫性損失、および対応する統合視聴覚時間グラウンディング モジュールという 2 つの主要コンポーネントがあります。 Target-aware モジュールを使用すると、テキスト モダリティの明示的なセマンティクスを利用することで、モデルが調査対象に関連する視聴覚キューに焦点を当てることができます。トライモーダル一貫性損失により、質問を意識した時間的グラウンディング中のオーディオとビデオ間の相互作用が容易になり、より単純な単一ストリーム アーキテクチャ内に融合が組み込まれます。 MUSIC-AVQA データセットの実験結果は、既存の最先端の方法に対する提案された方法の有効性と優位性を示しています。私たちのコードは間もなく利用可能になる予定です。
Audio-visual question answering (AVQA) is a challenging task that requires multistep spatio-temporal reasoning over multimodal contexts. To achieve scene understanding ability similar to humans, the AVQA task presents specific challenges, including effectively fusing audio and visual information and capturing question-relevant audio-visual features while maintaining temporal synchronization. This paper proposes a Target-aware Joint Spatio-Temporal Grounding Network for AVQA to address these challenges. The proposed approach has two main components: the Target-aware Spatial Grounding module, the Tri-modal consistency loss and corresponding Joint audio-visual temporal grounding module. The Target-aware module enables the model to focus on audio-visual cues relevant to the inquiry subject by exploiting the explicit semantics of text modality. The Tri-modal consistency loss facilitates the interaction between audio and video during question-aware temporal grounding and incorporates fusion within a simpler single-stream architecture. Experimental results on the MUSIC-AVQA dataset demonstrate the effectiveness and superiority of the proposed method over existing state-of-the-art methods. Our code will be availiable soon.