arXiv reaDer
二重対照学習による介入ビデオグラウンディング
Interventional Video Grounding with Dual Contrastive Learning
ビデオグラウンディングは、特定のテキストクエリに対して、トリミングされていないビデオから瞬間をローカライズすることを目的としています。既存のアプローチは、視覚刺激と言語刺激をさまざまな尤度ベースのマッチングまたは回帰戦略、つまりP(Y | X)と整合させることに重点を置いています。その結果、これらのモデルは、データセットの選択バイアスのために、言語とビデオ機能の間の疑似相関に悩まされる可能性があります。 1)モデルとデータの背後にある因果関係を明らかにするために、まず、因果推論の観点から新しいパラダイムを提案します。つまり、バックドア調整を活用して構造化因果モデル(SCM)に基づく選択バイアスを解き明かす介入ビデオグラウンディング(IVG)です。 )およびdo-calculus P(Y | do(X))。次に、データセットから直接サンプリングできないため、観察されていない交絡因子を近似するためのシンプルで効果的な方法を示します。 2)一方、クエリとビデオクリップ間の相互情報量(MI)、およびターゲットモーメントの開始フレームと終了フレーム間のMIを最大化することにより、テキストとビデオをより適切に位置合わせするためのデュアルコントラスト学習アプローチ(DCL)を導入します。より有益な視覚的表現を学ぶためにビデオ内で。 3つの標準ベンチマークでの実験は、私たちのアプローチの有効性を示しています。
Video grounding aims to localize a moment from an untrimmed video for a given textual query. Existing approaches focus more on the alignment of visual and language stimuli with various likelihood-based matching or regression strategies, i.e., P(Y|X). Consequently, these models may suffer from spurious correlations between the language and video features due to the selection bias of the dataset. 1) To uncover the causality behind the model and data, we first propose a novel paradigm from the perspective of the causal inference, i.e., interventional video grounding (IVG) that leverages backdoor adjustment to deconfound the selection bias based on structured causal model (SCM) and do-calculus P(Y|do(X)). Then, we present a simple yet effective method to approximate the unobserved confounder as it cannot be directly sampled from the dataset. 2) Meanwhile, we introduce a dual contrastive learning approach (DCL) to better align the text and video by maximizing the mutual information (MI) between query and video clips, and the MI between start/end frames of a target moment and the others within a video to learn more informative visual representations. Experiments on three standard benchmarks show the effectiveness of our approaches.
updated: Mon Jun 21 2021 12:11:28 GMT+0000 (UTC)
published: Mon Jun 21 2021 12:11:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト