ほとんどのビデオと言語の表現学習アプローチは、テキストとビデオのペアの意味的類似性に従って、ビデオとテキストの特徴を共通の潜在空間に投影するために、CLIP などの対照的な学習を採用しています。ただし、このような学習された共有潜在空間は最適ではないことが多く、視覚表現とテキスト表現の間のモダリティ ギャップを完全に排除することはできません。この論文では、コンパクトなビデオと言語表現を学習する期待値最大化対照学習 (EMCL) を提案します。具体的には、Expectation-Maximization アルゴリズムを使用して、潜在空間のコンパクトな基底セットを見つけます。ここで、特徴はこれらの基底の線形結合として簡潔に表すことができます。ビデオと言語表現のこのような機能分解は、潜在空間のランクを下げ、セマンティクスの表現力を高めます。 3 つのベンチマーク テキスト ビデオ検索データセットでの広範な実験により、EMCL が以前の方法よりも識別可能なビデオと言語の表現を学習し、すべてのメトリックで以前の最先端の方法よりも大幅に優れていることが証明されました。さらに心強いことに、提案された方法を適用して、追加のトレーニングなしで共同トレーニング層またはすぐに使用できる推論モジュールとして既存のアプローチのパフォーマンスを向上させることができるため、既存の方法に簡単に組み込むことができます。
Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.