arXiv reaDer
FIRE で FIRe と戦う: Text-to-Video 検索ベンチマークの妥当性の評価
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks
テキストの説明を含むビデオの山を検索することは、コアのマルチモーダル検索タスクです。テキストからビデオへの検索専用に構築されたデータセットがないため、ビデオ キャプション データセットは、(1) キャプションをそれぞれのビデオとの肯定的な一致として扱い、(2) 他のすべてのビデオを想定して、モデルを評価するために再利用されています。マイナスになる。ただし、この方法論は評価中に根本的な欠陥につながります。キャプションは元のビデオにのみ関連するものとしてマークされるため、多くの代替ビデオもキャプションと一致し、偽陰性のキャプションとビデオのペアが導入されます。これらの偽陰性が修正されると、最新のモデルが 25% のリコール ポイントを獲得することを示します。この差は、ベンチマーク自体の妥当性を脅かすものです。この問題を診断して軽減するために、683K の追加のキャプションとビデオのペアに注釈を付けてリリースします。これらを使用して、2 つの標準ベンチマーク (MSR-VTT および MSVD) で 3 つのモデルの有効性スコアを再計算します。 (1) 再計算されたメトリクスは、最良のモデルのリコール ポイントが最大 25% 高い、(2) これらのベンチマークは Recall@10 で飽和に近づいている、(3) キャプションの長さ (一般性) はポジティブの数に関連していることがわかりました。 、および(4)サンプリングにより注釈コストを軽減できます。これらのベンチマークを現在の形で廃止することをお勧めします。また、将来のテキストからビデオへの検索ベンチマークについても推奨します。
Searching troves of videos with textual descriptions is a core multimodal retrieval task. Owing to the lack of a purpose-built dataset for text-to-video retrieval, video captioning datasets have been re-purposed to evaluate models by (1) treating captions as positive matches to their respective videos and (2) assuming all other videos to be negatives. However, this methodology leads to a fundamental flaw during evaluation: since captions are marked as relevant only to their original video, many alternate videos also match the caption, which introduces false-negative caption-video pairs. We show that when these false negatives are corrected, a recent state-of-the-art model gains 25% recall points -- a difference that threatens the validity of the benchmark itself. To diagnose and mitigate this issue, we annotate and release 683K additional caption-video pairs. Using these, we recompute effectiveness scores for three models on two standard benchmarks (MSR-VTT and MSVD). We find that (1) the recomputed metrics are up to 25% recall points higher for the best models, (2) these benchmarks are nearing saturation for Recall@10, (3) caption length (generality) is related to the number of positives, and (4) annotation costs can be mitigated through sampling. We recommend retiring these benchmarks in their current form, and we make recommendations for future text-to-video retrieval benchmarks.
updated: Wed Apr 19 2023 03:50:48 GMT+0000 (UTC)
published: Mon Oct 10 2022 22:45:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト