過去数年間で、視覚言語事前トレーニング(VLP)の出現により、クロスモーダル検索が新しい時代にもたらされました。ただし、遅延と計算の要求により、リアルタイムのオンライン検索システムにVLPを適用することは一般的に困難です。欠陥を軽減するために、この論文は、高速画像テキスト検索(ITR)のための階層的視覚-言語事前トレーニング(HiVLP)を提案します。具体的には、粗いから細かいITRにさまざまな次元の表現を使用する、つまり、大規模な粗い検索には低次元の表現を使用し、小規模な細かい検索には高次元の表現を使用する、新しい階層検索の目的を設計します。提案されたHiVLPを、2つの一般的な画像テキスト検索ベンチマーク、つまりFlickr30kとCOCOで評価します。広範な実験により、HiVLPは推論速度が速いだけでなく、大規模なITRシナリオに簡単に拡張できることが実証されています。詳細な結果は、さまざまな候補シナリオで、HiVLPが融合ベースのモデルUNITERよりも1,427〜120,649倍速く、最速の埋め込みベースのモデルLightingDotよりも2〜5速いことを示しています。また、LightingDotよりもCOCOで約+4.9 AR、Flickr30Kで+3.8 ARを達成し、最先端の(SOTA)フュージョンベースのモデルMETERと同等のパフォーマンスを実現します。
In the past few years, the emergence of vision-language pre-training (VLP) has brought cross-modal retrieval to a new era. However, due to the latency and computation demand, it is commonly challenging to apply VLP in a real-time online retrieval system. To alleviate the defect, this paper proposes a Hierarchical Vision-Language Pre-Training (HiVLP) for fast Image-Text Retrieval (ITR). Specifically, we design a novel hierarchical retrieval objective, which uses the representation of different dimensions for coarse-to-fine ITR, i.e., using low-dimensional representation for large-scale coarse retrieval and high-dimensional representation for small-scale fine retrieval. We evaluate our proposed HiVLP on two popular image-text retrieval benchmarks, i.e., Flickr30k and COCO. Extensive experiments demonstrate that our HiVLP not only has fast inference speed but also can be easily scaled to large-scale ITR scenarios. The detailed results show that HiVLP is 1,427∼120,649× faster than the fusion-based model UNITER and 2∼5 faster than the fastest embedding-based model LightingDot in different candidate scenarios. It also achieves about +4.9 AR on COCO and +3.8 AR on Flickr30K than LightingDot and achieves comparable performance with the state-of-the-art (SOTA) fusion-based model METER.