arXiv reaDer
解きほぐされた概念化とセット間の調整によるテキストビデオ検索
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment
テキストとビデオの検索は、視覚的なエンティティを自然言語の記述と一致させることを目的とした、困難なクロスモーダル タスクです。現在の方法は、ローカルの詳細を活用できていないか、計算コストが高くなっています。さらに悪いことに、データ内の異種概念を活用できません。この論文では、人間の概念化と推論のプロセスをシミュレートするために、Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) を提案します。概念化を解くために、大まかな特徴を意味概念に関連する複数の潜在的な要素に分割します。一連の視覚的概念が一連のテキスト概念に対応するセット間アライメントの場合、部分一致に対処するために意味論的概念を集約する適応プーリング手法を提案します。特に、わずか数次元で独立して概念をエンコードするため、DiCoSA は効率と粒度の点で優れており、粗粒度のアライメントと同様の計算量を使用して粒度の細かい相互作用を保証します。 MSR-VTT、LSMDC、MSVD、ActivityNet、DiDeMo を含む 5 つのデータセットに対する広範な実験により、私たちの手法が既存の最先端の手法よりも優れていることが実証されました。
Text-video retrieval is a challenging cross-modal task, which aims to align visual entities with natural language descriptions. Current methods either fail to leverage the local details or are computationally expensive. What's worse, they fail to leverage the heterogeneous concepts in data. In this paper, we propose the Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) to simulate the conceptualizing and reasoning process of human beings. For disentangled conceptualization, we divide the coarse feature into multiple latent factors related to semantic concepts. For set-to-set alignment, where a set of visual concepts correspond to a set of textual concepts, we propose an adaptive pooling method to aggregate semantic concepts to address the partial matching. In particular, since we encode concepts independently in only a few dimensions, DiCoSA is superior at efficiency and granularity, ensuring fine-grained interactions using a similar computational complexity as coarse-grained alignment. Extensive experiments on five datasets, including MSR-VTT, LSMDC, MSVD, ActivityNet, and DiDeMo, demonstrate that our method outperforms the existing state-of-the-art methods.
updated: Sat May 20 2023 15:48:47 GMT+0000 (UTC)
published: Sat May 20 2023 15:48:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト