arXiv reaDer
ビデオテキスト表現学習のサポートセットのボトルネック
Support-set bottlenecks for video-text representation learning
ビデオテキスト表現を学習するための主要なパラダイム(ノイズ対照学習)は、同じサンプルからのテキストとビデオなど、関連することがわかっているサンプルのペアの表現の類似性を高め、すべての表現を押しのけます他のペア。この最後の動作は厳密すぎて、意味的に関連するサンプル(たとえば、視覚的に類似したビデオや同じ描写されたアクションを共有するビデオ)に対しても異なる表現を強制すると考えます。この論文では、生成モデルを活用してこれらの関連サンプルを自然にまとめることにより、これを軽減する新しい方法を提案します。各サンプルのキャプションは、他のサポートサンプルの視覚的表現の加重組み合わせとして再構築する必要があります。この単純なアイデアにより、表現が個々のサンプルに過度に特化されておらず、データセット全体で再利用可能であり、ノイズ対照学習とは異なり、サンプル間で共有されるセマンティクスを明示的にエンコードする表現が得られます。私たちが提案する方法は、MSR-VTT、VATEX、ActivityNet、およびビデオからテキストへの検索とテキストからビデオへの検索のMSVDで、他の方法よりも大幅に優れています。
The dominant paradigm for learning video-text representations -- noise contrastive learning -- increases the similarity of the representations of pairs of samples that are known to be related, such as text and video from the same sample, and pushes away the representations of all other pairs. We posit that this last behaviour is too strict, enforcing dissimilar representations even for samples that are semantically-related -- for example, visually similar videos or ones that share the same depicted action. In this paper, we propose a novel method that alleviates this by leveraging a generative model to naturally push these related samples together: each sample's caption must be reconstructed as a weighted combination of other support samples' visual representations. This simple idea ensures that representations are not overly-specialized to individual samples, are reusable across the dataset, and results in representations that explicitly encode semantics shared between samples, unlike noise contrastive learning. Our proposed method outperforms others by a large margin on MSR-VTT, VATEX and ActivityNet, and MSVD for video-to-text and text-to-video retrieval.
updated: Thu Jan 14 2021 10:34:56 GMT+0000 (UTC)
published: Tue Oct 06 2020 15:38:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト