arXiv reaDer
因果的介入による弱教師ありビデオオブジェクトの接地
Weakly-Supervised Video Object Grounding via Causal Intervention
モデル学習中に使用できるのはビデオ文の注釈のみである、弱教師ありビデオオブジェクトグラウンディング(WSVOG)のタスクを対象としています。これは、文章で説明されているオブジェクトをビデオの視覚領域にローカライズすることを目的としています。これは、パターン分析と機械学習に必要な基本的な機能です。最近の進歩にもかかわらず、既存の方法はすべて、接地性能を損なう疑似相関の深刻な問題に悩まされています。この論文では、WSVOGの定義から始めて、2つの側面から疑似相関を特定します。(1)関連付け自体はオブジェクトに関連していませんが、監視が弱いために非常にあいまいです。(2)関連付けは不可避的に混乱します。既存の方法で統計ベースのマッチング戦略を採用する場合の観測バイアス。これを念頭に置いて、より正確で堅牢なビデオオブジェクトの接地のために、解きほぐされたオブジェクト関連の関連付けを学習するための統一された因果フレームワークを設計します。具体的には、ビデオデータ生成プロセスの観点から、因果的介入によるオブジェクト関連の関連付けを学習します。介入の観点からきめ細かい監督が不足しているという問題を克服するために、新しい時空間的敵対的対照学習パラダイムを提案します。オブジェクト関連の関連付け内の付随する交絡効果をさらに取り除くために、バックドア調整を介して因果的介入を実行することにより、真の因果関係を追求します。最後に、解きほぐされたオブジェクト関連の関連付けは、エンドツーエンドの方法で統一された因果関係のフレームワークの下で学習され、最適化されます。 3つのベンチマークのIIDおよびOODテストセットの両方での広範な実験は、最先端技術に対する正確で堅牢な接地性能を示しています。
We target at the task of weakly-supervised video object grounding (WSVOG), where only video-sentence annotations are available during model learning. It aims to localize objects described in the sentence to visual regions in the video, which is a fundamental capability needed in pattern analysis and machine learning. Despite the recent progress, existing methods all suffer from the severe problem of spurious association, which will harm the grounding performance. In this paper, we start from the definition of WSVOG and pinpoint the spurious association from two aspects: (1) the association itself is not object-relevant but extremely ambiguous due to weak supervision, and (2) the association is unavoidably confounded by the observational bias when taking the statistics-based matching strategy in existing methods. With this in mind, we design a unified causal framework to learn the deconfounded object-relevant association for more accurate and robust video object grounding. Specifically, we learn the object-relevant association by causal intervention from the perspective of video data generation process. To overcome the problems of lacking fine-grained supervision in terms of intervention, we propose a novel spatial-temporal adversarial contrastive learning paradigm. To further remove the accompanying confounding effect within the object-relevant association, we pursue the true causality by conducting causal intervention via backdoor adjustment. Finally, the deconfounded object-relevant association is learned and optimized under a unified causal framework in an end-to-end manner. Extensive experiments on both IID and OOD testing sets of three benchmarks demonstrate its accurate and robust grounding performance against state-of-the-arts.
updated: Wed Dec 01 2021 13:13:03 GMT+0000 (UTC)
published: Wed Dec 01 2021 13:13:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト