arXiv reaDer
ビデオ検索における意味的類似性について
On Semantic Similarity in Video Retrieval
現在のビデオ検索の取り組みはすべて、インスタンスベースの仮定に基づいて評価されており、クエリビデオに関連するのは1つのキャプションのみであり、その逆も同様です。この仮定により、モデルの検索機能を示さないことが多いパフォーマンス比較が行われることを示します。セマンティック類似性ビデオ検索への移行を提案します。ここでは、(i)複数のビデオ/キャプションが同等に関連していると見なすことができ、それらの相対的なランク付けはメソッドの報告されたパフォーマンスに影響を与えず、(ii)取得されたビデオ/キャプションはクエリ。追加の注釈なしで、大規模な検索データセットの意味的類似性を推定するために、いくつかのプロキシを提案します。私たちの分析は、3つの一般的に使用されるビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で実行されます。
Current video retrieval efforts all found their evaluation on an instance-based assumption, that only a single caption is relevant to a query video and vice versa. We demonstrate that this assumption results in performance comparisons often not indicative of models' retrieval capabilities. We propose a move to semantic similarity video retrieval, where (i) multiple videos/captions can be deemed equally relevant, and their relative ranking does not affect a method's reported performance and (ii) retrieved videos/captions are ranked by their similarity to a query. We propose several proxies to estimate semantic similarities in large-scale retrieval datasets, without additional annotations. Our analysis is performed on three commonly used video retrieval datasets (MSR-VTT, YouCook2 and EPIC-KITCHENS).
updated: Thu Mar 18 2021 09:12:40 GMT+0000 (UTC)
published: Thu Mar 18 2021 09:12:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト