最近のビデオベースのソーシャルプラットフォーム(YouTubeやTikTokなど)のブームに伴い、センテンスクエリを使用したビデオ検索が重要な需要になり、研究の注目を集めています。まともなパフォーマンスにもかかわらず、ビジョンおよび言語コミュニティの既存のテキストビデオ検索モデルは、高次元の埋め込みに基づくブルートフォース検索を採用しているため、大規模なWeb検索には実用的ではありません。効率を向上させるために、Web検索エンジンはベクトル圧縮ライブラリ(FAISSなど)を広く適用して、学習した埋め込みを後処理します。残念ながら、機能エンコーディングから圧縮を分離すると、表現の堅牢性が低下し、パフォーマンスが低下します。パフォーマンスと効率のより良いバランスを追求するために、クロスビュービデオ検索のための最初の量子化表現学習方法、すなわちハイブリッド対照量子化(HCQ)を提案します。具体的には、HCQは、トランスフォーマーを使用して粗視化と細粒度の両方の量子化を学習します。これにより、テキストとビデオを補完的に理解し、包括的なセマンティック情報を保持できます。 HCQは、ビュー全体で非対称量子化対照学習(AQ-CL)を実行することにより、テキストとビデオを粗粒度および複数の細粒度レベルで整列させます。このハイブリッドグレイン学習戦略は、クロスビュービデオ量子化モデルの強力な監視として機能します。このモデルでは、さまざまなレベルでの対照的な学習を相互に促進できます。 3つのWebビデオベンチマークデータセットでの広範な実験により、HCQは、ストレージと計算で高い効率を示しながら、最先端の非圧縮検索方法で競争力のあるパフォーマンスを達成することが実証されています。コードと構成はhttps://github.com/gimpong/WWW22-HCQで入手できます。
With the recent boom of video-based social platforms (e.g., YouTube and TikTok), video retrieval using sentence queries has become an important demand and attracts increasing research attention. Despite the decent performance, existing text-video retrieval models in vision and language communities are impractical for large-scale Web search because they adopt brute-force search based on high-dimensional embeddings. To improve efficiency, Web search engines widely apply vector compression libraries (e.g., FAISS) to post-process the learned embeddings. Unfortunately, separate compression from feature encoding degrades the robustness of representations and incurs performance decay. To pursue a better balance between performance and efficiency, we propose the first quantized representation learning method for cross-view video retrieval, namely Hybrid Contrastive Quantization (HCQ). Specifically, HCQ learns both coarse-grained and fine-grained quantizations with transformers, which provide complementary understandings for texts and videos and preserve comprehensive semantic information. By performing Asymmetric-Quantized Contrastive Learning (AQ-CL) across views, HCQ aligns texts and videos at coarse-grained and multiple fine-grained levels. This hybrid-grained learning strategy serves as strong supervision on the cross-view video quantization model, where contrastive learning at different levels can be mutually promoted. Extensive experiments on three Web video benchmark datasets demonstrate that HCQ achieves competitive performance with state-of-the-art non-compressed retrieval methods while showing high efficiency in storage and computation. Code and configurations are available at https://github.com/gimpong/WWW22-HCQ.