既存の視覚的質問応答方法は、多くの場合、クロスモーダルの誤った相関関係と、ビデオ全体にまたがるイベントの一時性、因果関係、およびダイナミクスを捉えることができない単純化されたイベントレベルの推論プロセスに悩まされています。この作業では、イベント レベルの視覚的な質問応答のタスクに対処するために、クロス モーダルな因果関係推論のフレームワークを提案します。特に、一連の因果介入操作が導入され、視覚的モダリティと言語モダリティにわたって根底にある因果構造を発見します。 Cross-Modal Causal RelatIonal Reasoning (CMCIR) と名付けられた私たちのフレームワークには、次の 3 つのモジュールが含まれます。 ; ii) 視覚的セマンティクスと言語的セマンティクスの間のきめの細かい相互作用をキャプチャするための時空間トランスフォーマー (STT) モジュール。 iii) グローバルな意味認識視覚言語表現を適応的に学習するための視覚言語特徴融合 (VLFF) モジュール。 4つのイベントレベルのデータセットに関する広範な実験により、視覚言語的因果構造の発見と堅牢なイベントレベルの視覚的質問応答の実現におけるCMCIRの優位性が実証されました。データセット、コード、およびモデルは、https://github.com/HCPLab-SYSU/CMCIR で入手できます。
Existing visual question answering methods often suffer from cross-modal spurious correlations and oversimplified event-level reasoning processes that fail to capture event temporality, causality, and dynamics spanning over the video. In this work, to address the task of event-level visual question answering, we propose a framework for cross-modal causal relational reasoning. In particular, a set of causal intervention operations is introduced to discover the underlying causal structures across visual and linguistic modalities. Our framework, named Cross-Modal Causal RelatIonal Reasoning (CMCIR), involves three modules: i) Causality-aware Visual-Linguistic Reasoning (CVLR) module for collaboratively disentangling the visual and linguistic spurious correlations via front-door and back-door causal interventions; ii) Spatial-Temporal Transformer (STT) module for capturing the fine-grained interactions between visual and linguistic semantics; iii) Visual-Linguistic Feature Fusion (VLFF) module for learning the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering. The datasets, code, and models are available at https://github.com/HCPLab-SYSU/CMCIR.