VideoQA Transformer モデルは標準ベンチマークで競争力のあるパフォーマンスを示していますが、その成功の理由は依然として不明です。これらのモデルは、ビデオとテキストから豊富なマルチモーダル構造とダイナミクスを共同でキャプチャして活用していますか?それとも、単にショートカットを利用して高スコアを達成しているだけなのでしょうか?これを、推論中にモデルの結合されたマルチモーダルな理解を体系的に除去する軽量のノンパラメトリック プローブである QUAG (Quadrant AveraGe) を使用して分析します。驚くべきことに、QUAG は、モデルがマルチモーダルの準最適性を注入された場合でも高いパフォーマンスを維持できることを明らかにしました。さらに、マルチモーダル フュージョン ブロックの自己注意を、自己注意の単純化され表現力の低い変形である「QUAG-attention」に置き換えた後でも、モデルは高いパフォーマンスを維持します。これは、現在の VideoQA ベンチマークとその指標が、マルチモーダルな共同理解を軽視するショートカットにペナルティを与えないことを意味します。これを動機として、我々は CLAVI (Counterfactual in LANguage and VIdeo) ベンチマークを提案します。これは、VideoQA におけるマルチモーダルな理解を反事実を通じてベンチマークするための診断データセットです。 CLAVI は、言語とビデオの領域でバランスの取れた反事実を厳選するために強化された一時的な質問とビデオで構成されています。したがって、学習されたマルチモーダル表現の信頼性を識別することを奨励し、識別します。 CLAVI を評価したところ、モデルはマルチモーダル ショートカット インスタンスでは高いパフォーマンスを達成しますが、反事実ではパフォーマンスが非常に悪いことがわかりました。したがって、現在のベンチマークでは評価できない、学習されたマルチモーダル VideoQA 表現の準最適性を特定、診断、改善するためのリトマス試験紙として CLAVI を位置付けています。
While VideoQA Transformer models demonstrate competitive performance on standard benchmarks, the reasons behind their success remain unclear. Do these models jointly capture and leverage the rich multimodal structures and dynamics from video and text? Or are they merely exploiting shortcuts to achieve high scores? We analyze this with QUAG (QUadrant AveraGe), a lightweight and non-parametric probe that systematically ablates the model's coupled multimodal understanding during inference. Surprisingly, QUAG reveals that the models manage to maintain high performance even when injected with multimodal sub-optimality. Additionally, even after replacing self-attention in multimodal fusion blocks with "QUAG-attention", a simplistic and less-expressive variant of self-attention, the models maintain high performance. This means that current VideoQA benchmarks and their metrics do not penalize shortcuts that discount joint multimodal understanding. Motivated by this, we propose the CLAVI (Counterfactual in LAnguage and VIdeo) benchmark, a diagnostic dataset for benchmarking coupled multimodal understanding in VideoQA through counterfactuals. CLAVI consists of temporal questions and videos that are augmented to curate balanced counterfactuals in language and video domains. Hence, it incentivizes, and identifies the reliability of learnt multimodal representations. We evaluate CLAVI and find that models achieve high performance on multimodal shortcut instances, but have very poor performance on the counterfactuals. Hence, we position CLAVI as a litmus test to identify, diagnose and improve the sub-optimality of learnt multimodal VideoQA representations which the current benchmarks are unable to assess.