arXiv reaDer
軽量の注意機能の融合:テキストからビデオへの検索のための新しいベースライン
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
この論文では、テキストからビデオへの検索という新しいコンテキストで、昔ながらのトピックである機能融合を再検討します。片方の端だけで機能の融合を検討する以前の研究とは異なり、ビデオまたはテキストとして、統一されたフレームワーク内で両端の機能の融合を目指しています。特徴の凸結合を最適化することは、計算量の多いマルチヘッドの自己注意によってそれらの相関をモデル化するよりも好ましいと仮定します。 Lightweight Attentional Feature Fusion(LAFF)を提案します。 LAFFは、初期段階と後期段階の両方、およびビデオとテキストの両方の終わりで機能融合を実行し、多様な(既製の)機能を活用するための強力な方法になります。 LAFFの解釈可能性は、特徴選択に使用できます。 5つの公開ベンチマークセット(MSR-VTT、MSVD、TGIF、VATEX、TRECVID AVS 2016-2020)での広範な実験により、LAFFはテキストからビデオへの検索の新しいベースラインとして正当化されます。
In this paper we revisit feature fusion, an old-fashioned topic, in the new context of text-to-video retrieval. Different from previous research that considers feature fusion only at one end, let it be video or text, we aim for feature fusion for both ends within a unified framework. We hypothesize that optimizing the convex combination of the features is preferred to modeling their correlations by computationally heavy multi-head self attention. We propose Lightweight Attentional Feature Fusion (LAFF). LAFF performs feature fusion at both early and late stages and at both video and text ends, making it a powerful method for exploiting diverse (off-the-shelf) features. The interpretability of LAFF can be used for feature selection. Extensive experiments on five public benchmark sets (MSR-VTT, MSVD, TGIF, VATEX and TRECVID AVS 2016-2020) justify LAFF as a new baseline for text-to-video retrieval.
updated: Thu Jul 14 2022 08:59:41 GMT+0000 (UTC)
published: Fri Dec 03 2021 10:41:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト