arXiv reaDer
マルチストリームコーパスアラインメントとデュアルソフトマックス損失によるビデオテキスト検索の改善
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss
大規模な事前トレーニング済みモデルCLIPを使用してビデオテキスト検索タスク(VTR)を実行することは、以前のVTRメソッドを超える新しいトレンドになっています。ただし、ビデオとテキストの間の構造とコンテンツの不均一性のために、以前のCLIPベースのモデルは、トレーニングフェーズで過剰適合する傾向があり、結果として検索パフォーマンスが比較的低くなります。この論文では、2つの不均一性を解決するために、シングルゲートの専門家混合(CAMoE)と新しいデュアルソフトマックス損失(DSL)を備えたマルチストリームコーパスアライメントネットワークを提案します。 CAMoEは、Mixture-of-Experts(MoE)を使用して、アクション、エンティティ、シーンなどを含む多視点のビデオ表現を抽出し、テキストの対応する部分に揃えます。この段階では、特徴抽出モジュールと特徴調整モジュールに向けて大規模な調査を行います。 DSLは、以前の対照的な方法で発生する一方向の最適一致を回避するために提案されています。 DSLは、バッチ内の各ペアの固有の優先順位を導入し、類似性マトリックスを修正するための改訂者として機能し、二重の最適な一致を実現します。 DSLは、1行のコードだけで簡単に実装できますが、大幅に向上します。結果は、提案されたCAMoEとDSLが非常に効率的であり、それぞれがMSR-VTT、MSVD、LSMDCなどのさまざまなベンチマークで個別に最先端(SOTA)を達成できることを示しています。さらに、これらの両方を使用すると、パフォーマンスが大幅に向上し、MSR-VTTの約4.6%R @ 1で以前のSOTAメソッドを上回ります。
Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based models are prone to overfitting in the training phase, resulting in relatively poor retrieval performance. In this paper, we propose a multi-stream Corpus Alignment network with single gate Mixture-of-Experts (CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video representations, including action, entity, scene, etc., then align them with the corresponding part of the text. In this stage, we conduct massive explorations towards the feature extraction module and feature alignment module. DSL is proposed to avoid the one-way optimum-match which occurs in previous contrastive methods. Introducing the intrinsic prior of each pair in a batch, DSL serves as a reviser to correct the similarity matrix and achieves the dual optimal match. DSL is easy to implement with only one-line code but improves significantly. The results show that the proposed CAMoE and DSL are of strong efficiency, and each of them is capable of achieving State-of-The-Art (SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC. Further, with both of them, the performance is advanced to a big extend, surpassing the previous SOTA methods for around 4.6% R@1 in MSR-VTT.
updated: Thu Sep 09 2021 14:10:43 GMT+0000 (UTC)
published: Thu Sep 09 2021 14:10:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト