ビデオにはマルチモーダル コンテンツが含まれており、自然言語クエリを使用したマルチレベルのクロスモーダル インタラクションを探索することで、テキスト ビデオ検索タスク (TVR) が非常に目立つようになります。ただし、TVR 用の大規模な事前トレーニング済みモデル CLIP を適用する新しいトレンド手法は、ビデオのマルチモーダル キューに焦点を当てていません。さらに、マルチモーダル機能を単純に連結する従来の方法では、動画内のきめ細かなクロスモーダル情報を活用できません。この論文では、マルチレベルのマルチモーダル ハイブリッド フュージョン (M2HF) ネットワークを提案して、テキスト クエリとビデオ内の各モダリティ コンテンツとの間の包括的な相互作用を調査します。具体的には、M2HF はまず、CLIP によって抽出された視覚的特徴を利用して、ビデオから抽出されたオーディオおよびモーションの特徴と早期に融合し、それぞれオーディオビジュアルフュージョン特徴とモーションビジュアルフュージョン特徴を取得します。このプロセスでは、マルチモーダルアライメント問題も考慮されます。次に、視覚的特徴、オーディオとビジュアルの融合特徴、モーションと視覚の融合特徴、およびビデオから抽出されたテキストは、マルチレベルの方法でキャプション クエリとのクロスモーダルな関係を確立します。最後に、すべてのレベルからの検索出力が後で融合され、最終的なテキスト ビデオ検索結果が得られます。私たちのフレームワークは、アンサンブル方式とエンド ツー エンド方式を含む 2 種類のトレーニング戦略を提供します。さらに、効率的なエンドツーエンドのトレーニングのために各モダリティの寄与のバランスをとるために、新しいマルチモーダルバランス損失関数が提案されています。 M2HF により、MSR-VTT、MSVD、LSMDC、DiDeMo、および ActivityNet で 64.9%、68.2%、33.2%、57.1%、57.8% の Rank@1 など、さまざまなベンチマークで最先端の結果を得ることができます。 、 それぞれ。
Videos contain multi-modal content, and exploring multi-level cross-modal interactions with natural language queries can provide great prominence to text-video retrieval task (TVR). However, new trending methods applying large-scale pre-trained model CLIP for TVR do not focus on multi-modal cues in videos. Furthermore, the traditional methods simply concatenating multi-modal features do not exploit fine-grained cross-modal information in videos. In this paper, we propose a multi-level multi-modal hybrid fusion (M2HF) network to explore comprehensive interactions between text queries and each modality content in videos. Specifically, M2HF first utilizes visual features extracted by CLIP to early fuse with audio and motion features extracted from videos, obtaining audio-visual fusion features and motion-visual fusion features respectively. Multi-modal alignment problem is also considered in this process. Then, visual features, audio-visual fusion features, motion-visual fusion features, and texts extracted from videos establish cross-modal relationships with caption queries in a multi-level way. Finally, the retrieval outputs from all levels are late fused to obtain final text-video retrieval results. Our framework provides two kinds of training strategies, including an ensemble manner and an end-to-end manner. Moreover, a novel multi-modal balance loss function is proposed to balance the contributions of each modality for efficient end-to-end training. M2HF allows us to obtain state-of-the-art results on various benchmarks, eg, Rank@1 of 64.9%, 68.2%, 33.2%, 57.1%, 57.8% on MSR-VTT, MSVD, LSMDC, DiDeMo, and ActivityNet, respectively.