arXiv reaDer
VISIONEビデオ検索システム:大規模なビデオ検索のための既製のテキスト検索エンジンの活用
The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval
本稿では、テキストキーワード、オブジェクトの出現とその空間的関係、色の出現とその空間的関係、画像の類似性を利用して動画を検索できる動画検索システムVISIONEについて詳しく説明します。これらのモダリティを組み合わせて、複雑なクエリを表現し、ユーザーのニーズを満たすことができます。私たちのアプローチの特徴は、単一のテキスト検索エンジンでインデックス付けされた便利なテキストエンコーディングを使用して、視覚的な深い特徴、タグ、色、オブジェクトの場所など、キーフレームから抽出されたすべての情報をエンコードすることです。これにより、クエリのさまざまな部分(ビジュアル、テキスト、場所)に対応する結果をマージする必要がある場合に大きな柔軟性が得られます。さらに、Video Browser Showdown(VBS)2019コンテスト中に生成されたクエリログを使用して、システム検索パフォーマンスの広範な分析を報告します。これにより、テストしたものの中から最適なパラメーターと戦略を選択することで、システムを微調整することができました。
In this paper, we describe in details VISIONE, a video search system that allows users to search for videos using textual keywords, occurrence of objects and their spatial relationships, occurrence of colors and their spatial relationships, and image similarity. These modalities can be combined together to express complex queries and satisfy user needs. The peculiarity of our approach is that we encode all the information extracted from the keyframes, such as visual deep features, tags, color and object locations, using a convenient textual encoding indexed in a single text retrieval engine. This offers great flexibility when results corresponding to various parts of the query (visual, text and locations) have to be merged. In addition, we report an extensive analysis of the system retrieval performance, using the query logs generated during the Video Browser Showdown (VBS) 2019 competition. This allowed us to fine-tune the system by choosing the optimal parameters and strategies among the ones that we tested.
updated: Thu Mar 18 2021 14:37:27 GMT+0000 (UTC)
published: Thu Aug 06 2020 16:32:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト