arXiv reaDer
因果的介入を使用した、ビデオ モーメントの検索
Deconfounded Video Moment Retrieval with Causal Intervention
私たちは、ビデオ モーメント検索 (VMR) のタスクに取り組みます。これは、テキスト クエリに従ってビデオ内の特定の瞬間をローカライズすることを目的としています。既存の方法は、主に、複雑なクロスモーダルな相互作用によって、クエリとモーメントの間の一致関係をモデル化します。その有効性にもかかわらず、現在のモデルは主にデータセットのバイアスを利用し、ビデオ コンテンツを無視しているため、一般化可能性が低くなります。この問題は、VMR の隠れた交絡因子、つまり、モデルの入力と予測を偽って相関させるモーメントの時間的位置によって引き起こされていると主張します。時間的位置バイアスに対してロバストなマッチング モデルを設計する方法は重要ですが、私たちが知る限り、VMR についてはまだ研究されていません。研究のギャップを埋めるために、構造的因果モデルを構築して、予測に対するクエリとビデオ コンテンツの真の効果をキャプチャする、因果関係に触発された VMR フレームワークを提案します。具体的には、モーメント位置の交絡効果を除去するためのデコンファウンテッド クロスモーダル マッチング (DCM) メソッドを開発します。最初にモーメント表現を解き放ち、ビジュアル コンテンツのコア機能を推測し、次に、バックドアの調整に基づいて、解き放たれたマルチモーダル入力に因果介入を適用します。これにより、モデルはターゲットの可能な各位置を考慮に入れます。大規模な実験により、私たちのアプローチは、精度と一般化の両方の点で最先端の方法を大幅に改善できることが明らかに示されています (コード: bluehttps://github.com/Xun-Yang/Causal_Video_Moment_Retrieval
We tackle the task of video moment retrieval (VMR), which aims to localize a specific moment in a video according to a textual query. Existing methods primarily model the matching relationship between query and moment by complex cross-modal interactions. Despite their effectiveness, current models mostly exploit dataset biases while ignoring the video content, thus leading to poor generalizability. We argue that the issue is caused by the hidden confounder in VMR, i.e., temporal location of moments, that spuriously correlates the model input and prediction. How to design robust matching models against the temporal location biases is crucial but, as far as we know, has not been studied yet for VMR. To fill the research gap, we propose a causality-inspired VMR framework that builds structural causal model to capture the true effect of query and video content on the prediction. Specifically, we develop a Deconfounded Cross-modal Matching (DCM) method to remove the confounding effects of moment location. It first disentangles moment representation to infer the core feature of visual content, and then applies causal intervention on the disentangled multimodal input based on backdoor adjustment, which forces the model to fairly incorporate each possible location of the target into consideration. Extensive experiments clearly show that our approach can achieve significant improvement over the state-of-the-art methods in terms of both accuracy and generalization (Codes: bluehttps://github.com/Xun-Yang/Causal_Video_Moment_Retrieval
updated: Thu Jun 03 2021 01:33:26 GMT+0000 (UTC)
published: Thu Jun 03 2021 01:33:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト