arXiv reaDer
RaP: テキストビデオ検索のための冗長性を考慮したビデオ言語の事前トレーニング
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval
ビデオ言語の事前トレーニング方法では、ビデオの一時的な冗長性を軽減するために、主にスパース サンプリング手法が採用されています。効果的ではありますが、まばらなサンプリングは、視覚的な冗長性とテキストの冗長性など、モーダル間の冗長性に悩まされています。高度に一般化されたテキストと比較して、まばらにサンプリングされたフレームには通常、視覚的な冗長性と呼ばれるテキストに依存しない部分が含まれます。また、スパース サンプリングは、一部のテキスト部分に対応する重要なフレームを見逃す可能性が高く、テキストの冗長性が生じます。インターモーダル冗長性は、ビデオとテキスト情報の不一致につながり、モデルがモダリティ間で共有されるセマンティクスをより適切に学習するのを妨げます。それを軽減するために、冗長性を考慮したビデオ言語の事前トレーニングを提案します。クロスモーダル最小非類似度を計算することにより、ビデオ パッチとテキスト トークンの冗長性測定を設計します。次に、提案された冗長性を意識した対照的な学習を通じて、冗長性の高いビデオ パッチとテキスト トークンにペナルティを課します。 MSRVTT、MSVD、DiDeMo、LSMDC の 4 つのベンチマーク データセットで手法を評価し、これまでの最先端の結果を大幅に改善しました。コードは https://github.com/caskcsg/VLP/tree/main/RaP で入手できます。
Video language pre-training methods have mainly adopted sparse sampling techniques to alleviate the temporal redundancy of videos. Though effective, sparse sampling still suffers inter-modal redundancy: visual redundancy and textual redundancy. Compared with highly generalized text, sparsely sampled frames usually contain text-independent portions, called visual redundancy. Sparse sampling is also likely to miss important frames corresponding to some text portions, resulting in textual redundancy. Inter-modal redundancy leads to a mismatch of video and text information, hindering the model from better learning the shared semantics across modalities. To alleviate it, we propose Redundancy-aware Video-language Pre-training. We design a redundancy measurement of video patches and text tokens by calculating the cross-modal minimum dis-similarity. Then, we penalize the highredundant video patches and text tokens through a proposed redundancy-aware contrastive learning. We evaluate our method on four benchmark datasets, MSRVTT, MSVD, DiDeMo, and LSMDC, achieving a significant improvement over the previous stateof-the-art results. Our code are available at https://github.com/caskcsg/VLP/tree/main/RaP.
updated: Thu Oct 13 2022 10:11:41 GMT+0000 (UTC)
published: Thu Oct 13 2022 10:11:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト