arXiv reaDer
VisualSparta:加重バッグオブワードを使用した大規模なテキストから画像への検索への恥ずかしいほど単純なアプローチ
VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words
テキストから画像への検索は、クロスモーダル情報検索、つまり、テキストクエリが与えられた大規模でラベルのないデータセットから関連する画像を検索する場合に不可欠なタスクです。この論文では、精度と効率の両方の点で大幅な改善を示す新しい(ビジュアルテキストスパーストランスフォーマーマッチング)モデルであるVisualSpartaを提案します。 VisualSpartaは、MSCOCOおよびFlickr30Kの以前の最先端のスケーラブルな方法よりも優れたパフォーマンスを発揮します。また、取得速度が大幅に向上することも示しています。つまり、100万の画像インデックスの場合、CPUを使用するVisualSpartaは、CPUベクトル検索と比較して最大391倍、GPUアクセラレーションを使用したベクトル検索と比較して最大5.4倍の速度向上を実現します。 VisualSpartaは転置インデックスとして効率的に実装できるため、実験によると、この速度の利点はデータセットが大きいほど大きくなります。私たちの知る限り、VisualSpartaは、大規模なデータセットのリアルタイム検索を実現できる最初のトランスベースのテキストから画像への検索モデルであり、以前の最先端の方法と比較して大幅な精度の向上を実現しています。
Text-to-image retrieval is an essential task in cross-modal information retrieval, i.e., retrieving relevant images from a large and unlabelled dataset given textual queries. In this paper, we propose VisualSparta, a novel (Visual-text Sparse Transformer Matching) model that shows significant improvement in terms of both accuracy and efficiency. VisualSparta is capable of outperforming previous state-of-the-art scalable methods in MSCOCO and Flickr30K. We also show that it achieves substantial retrieving speed advantages, i.e., for a 1 million image index, VisualSparta using CPU gets ~391X speedup compared to CPU vector search and ~5.4X speedup compared to vector search with GPU acceleration. Experiments show that this speed advantage even gets bigger for larger datasets because VisualSparta can be efficiently implemented as an inverted index. To the best of our knowledge, VisualSparta is the first transformer-based text-to-image retrieval model that can achieve real-time searching for large-scale datasets, with significant accuracy improvement compared to previous state-of-the-art methods.
updated: Fri May 21 2021 03:10:15 GMT+0000 (UTC)
published: Fri Jan 01 2021 16:29:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト