文に記述されている指示対象をビデオフレームの視覚領域にローカライズすることを目的としたビデオ参照表現理解(REC)の問題を調査します。最近の進歩にもかかわらず、既存の方法には2つの問題があります。1)ビデオフレーム間で一貫性のないローカリゼーション結果。 2)指示対象と文脈オブジェクトの間の混乱。この目的のために、フレーム間およびクロスモーダルの両方の方法で密な関連付けを明示的に強化する、新しいデュアル通信ネットワーク(DCNetと呼ばれる)を提案します。まず、フレーム内の既存のすべてのインスタンスのフレーム間相関を構築することを目指します。具体的には、フレーム間のパッチごとの余弦類似度を計算して密なアライメントを推定し、フレーム間の対照学習を実行して、それらを特徴空間に近接してマッピングします。次に、各パッチを特定の単語に関連付けるために、きめ細かいパッチと単語の配置を構築することを提案します。この種の詳細な注釈がないため、コサインの類似性を通じてパッチと単語の対応も予測します。広範な実験により、DCNetがビデオと画像の両方のRECベンチマークで最先端のパフォーマンスを達成していることが実証されています。さらに、包括的なアブレーション研究と徹底的な分析を実施して、最適なモデル設計を検討します。特に、フレーム間およびモーダル間の対照的な損失はプラグアンドプレイ機能であり、すべてのビデオRECアーキテクチャに適用できます。たとえば、Co-groundingの上に構築することで、VID-SentenceデータセットのAccu。@ 0.5のパフォーマンスが1.48%向上します。
We investigate the problem of video Referring Expression Comprehension (REC), which aims to localize the referent objects described in the sentence to visual regions in the video frames. Despite the recent progress, existing methods suffer from two problems: 1) inconsistent localization results across video frames; 2) confusion between the referent and contextual objects. To this end, we propose a novel Dual Correspondence Network (dubbed as DCNet) which explicitly enhances the dense associations in both the inter-frame and cross-modal manners. Firstly, we aim to build the inter-frame correlations for all existing instances within the frames. Specifically, we compute the inter-frame patch-wise cosine similarity to estimate the dense alignment and then perform the inter-frame contrastive learning to map them close in feature space. Secondly, we propose to build the fine-grained patch-word alignment to associate each patch with certain words. Due to the lack of this kind of detailed annotations, we also predict the patch-word correspondence through the cosine similarity. Extensive experiments demonstrate that our DCNet achieves state-of-the-art performance on both video and image REC benchmarks. Furthermore, we conduct comprehensive ablation studies and thorough analyses to explore the optimal model designs. Notably, our inter-frame and cross-modal contrastive losses are plug-and-play functions and are applicable to any video REC architectures. For example, by building on top of Co-grounding, we boost the performance by 1.48% absolute improvement on Accu.@0.5 for VID-Sentence dataset.