arXiv reaDer
CLIP2Video:画像CLIPを介したビデオ-テキスト検索の習得
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP
エンドツーエンドの方法で画像言語の事前トレーニングモデルをビデオテキスト検索に転送するCLIP2Videoネットワークを紹介します。ビデオと言語の学習の分野における主要なアプローチは、大規模なビデオテキストデータセットから時空間ビデオ機能とビデオと言語間のマルチモーダルインタラクションを抽出しようとします。それらとは異なり、事前にトレーニングされた画像言語モデルを活用し、画像テキストの共同学習とビデオフレームとビデオテキスト間の時間的関係をそれぞれ強化する2段階のフレームワークとして簡素化し、比較的小さなデータセットでトレーニングできるようにします。 。具体的には、Contrastive Language-Image Pretraining(CLIP)モデルによってキャプチャされた空間セマンティクスに基づいて、このモデルには、細かい時間ビデオフレームでモーションをキャプチャするための時間差ブロックと、ビデオクリップのトークンを再調整するための時間調整ブロックが含まれます。フレーズとマルチモーダル相関を強化します。私たちは徹底的なアブレーション研究を実施し、MSR-VTT、MSVD、およびVATEXでの検索精度の新しい記録を含む、主要なテキストからビデオおよびビデオからテキストへの検索ベンチマークで最先端のパフォーマンスを達成します。
We present CLIP2Video network to transfer the image-language pre-training model to video-text retrieval in an end-to-end manner. Leading approaches in the domain of video-and-language learning try to distill the spatio-temporal video features and multi-modal interaction between videos and languages from a large-scale video-text dataset. Different from them, we leverage pretrained image-language model, simplify it as a two-stage framework with co-learning of image-text and enhancing temporal relations between video frames and video-text respectively, make it able to train on comparatively small datasets. Specifically, based on the spatial semantics captured by Contrastive Language-Image Pretraining (CLIP) model, our model involves a Temporal Difference Block to capture motions at fine temporal video frames, and a Temporal Alignment Block to re-align the tokens of video clips and phrases and enhance the multi-modal correlation. We conduct thorough ablation studies, and achieve state-of-the-art performance on major text-to-video and video-to-text retrieval benchmarks, including new records of retrieval accuracy on MSR-VTT, MSVD and VATEX.
updated: Mon Jun 21 2021 13:30:33 GMT+0000 (UTC)
published: Mon Jun 21 2021 13:30:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト