Use What You Have: Video Retrieval Using Representations From Collaborative Experts
 インターネット上のビデオの急速な成長により、自然言語クエリを使用したビデオコンテンツの検索が大きな課題となっています。 「野生の」ビデオデータセットに対する人間が生成したクエリは、特異度の点で大きく異なり、有名なアイデンティティの名前、音声からのコンテンツ、画面上で利用可能なテキストなどの特定の詳細を記述するクエリもあります。私たちの目標は、ビデオからのマルチモーダルで非常に高次元の情報を、自由度のあるテキストクエリを使用してビデオ検索タスク用の単一のコンパクトなビデオ表現に凝縮することです。このために、視覚コンテンツの動き、外観、シーンの特徴などの「一般的な」特徴を含む、事前に訓練されたセマンティック埋め込みの形で既存の知識を活用します。また、ビデオで断続的に利用可能なASRおよびOCRからのより「特定の」キューの使用を調査し、これらの信号を検索に効果的に使用するのが難しいことを発見しました。これらのさまざまな事前訓練された専門家からの情報を集約し、5つの検索ベンチマーク(MSR-VTT、LSMDC、MSVD、DiDeMo、ActivityNet)でアプローチを経験的に評価するための共同専門家モデルを提案します。コードとデータはにあります。このペーパーには、以前のバージョンで報告された結果の修正が含まれています。
The rapid growth of video on the internet has made searching for video content using natural language queries a significant challenge. Human-generated queries for video datasets `in the wild' vary a lot in terms of degree of specificity, with some queries describing specific details such as the names of famous identities, content from speech, or text available on the screen. Our goal is to condense the multi-modal, extremely high dimensional information from videos into a single, compact video representation for the task of video retrieval using free-form text queries, where the degree of specificity is open-ended. For this we exploit existing knowledge in the form of pre-trained semantic embeddings which include 'general' features such as motion, appearance, and scene features from visual content. We also explore the use of more 'specific' cues from ASR and OCR which are intermittently available for videos and find that these signals remain challenging to use effectively for retrieval. We propose a collaborative experts model to aggregate information from these different pre-trained experts and assess our approach empirically on five retrieval benchmarks: MSR-VTT, LSMDC, MSVD, DiDeMo, and ActivityNet. Code and data can be found at This paper contains a correction to results reported in the previous version.
updated: Fri Feb 14 2020 04:32:35 GMT+0000 (UTC)
published: Wed Jul 31 2019 13:19:37 GMT+0000 (UTC)
