arXiv reaDer
HiT:ビデオテキスト検索のための運動量コントラストを備えた階層型トランスフォーマー
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval
ビデオテキスト検索は、インターネット上のマルチメディアデータの成長とともに注目を集めている研究トピックです。ビデオテキスト学習用のトランスフォーマーは、その有望なパフォーマンスによりますます注目を集めています。ただし、既存のクロスモーダルトランスフォーマーアプローチには、通常、2つの大きな制限があります。1)異なるレイヤーが異なる機能特性を持つトランスフォーマーアーキテクチャの活用が制限されている。 2)エンドツーエンドのトレーニングメカニズムは、ミニバッチでの負のサンプル相互作用を制限します。この論文では、ビデオテキスト検索のためのHierarchical Transformer(HiT)という名前の新しいアプローチを提案します。 HiTは、機能レベルとセマンティックレベルの両方で階層的クロスモーダル対照マッチングを実行し、マルチビューで包括的な検索結果を実現します。さらに、MoCoに触発されて、クロスモーダル学習のためのMomentum Cross-modal Contrastを提案し、大規模なネガティブサンプルの相互作用をオンザフライで可能にします。これにより、より正確で識別力のある表現の生成に貢献します。 3つの主要なビデオテキスト検索ベンチマークデータセットの実験結果は、私たちの方法の利点を示しています。
Video-Text Retrieval has been a hot research topic with the growth of multimedia data on the internet. Transformer for video-text learning has attracted increasing attention due to its promising performance. However, existing cross-modal transformer approaches typically suffer from two major limitations: 1) Exploitation of the transformer architecture where different layers have different feature characteristics is limited; 2) End-to-end training mechanism limits negative sample interactions in a mini-batch. In this paper, we propose a novel approach named Hierarchical Transformer (HiT) for video-text retrieval. HiT performs Hierarchical Cross-modal Contrastive Matching in both feature-level and semantic-level, achieving multi-view and comprehensive retrieval results. Moreover, inspired by MoCo, we propose Momentum Cross-modal Contrast for cross-modal learning to enable large-scale negative sample interactions on-the-fly, which contributes to the generation of more precise and discriminative representations. Experimental results on the three major Video-Text Retrieval benchmark datasets demonstrate the advantages of our method.
updated: Wed Aug 18 2021 02:11:05 GMT+0000 (UTC)
published: Sun Mar 28 2021 04:52:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト