arXiv reaDer
ビデオにおける偏りのない時間的文の根拠の詳細:データセット、メトリック、およびアプローチ
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach
トリミングされていないビデオで自然言語の文をグラウンディングすることを目的としたビデオでの時間的センテンスグラウンディング(TSGV)は、過去数年にわたって広く注目を集めています。ただし、最近の研究では、現在のベンチマークデータセットには明らかなモーメント注釈バイアスがあり、SOTAパフォーマンスを達成するためのトレーニングがなくてもいくつかの単純なベースラインが可能であることがわかっています。このホワイトペーパーでは、既存の評価プロトコルを詳しく調べ、一般的なデータセットと評価指標の両方が、信頼できないベンチマークにつながる悪魔であることを発見しました。したがって、広く使用されている2つのデータセットを再編成して、トレーニングとテストの分割、つまり分布外(OOD)テストでグラウンドトゥルースモーメントの分布を異なるものにすることを提案します。一方、新しい評価指標「dR @ n、IoU @ m」を導入します。これは、基本的なリコールスコアを割り引いて、偏ったデータセットによって引き起こされる評価の膨張を軽減します。新しいベンチマーク結果は、提案された評価プロトコルが研究の進捗状況をより適切に監視できることを示しています。さらに、バイアスのないモーメント予測のための新しい因果関係ベースのマルチブランチデコンファウンディングデバイアス(MDD)フレームワークを提案します。具体的には、因果的介入を伴う複数の交絡因子によって引き起こされる影響を排除するために、マルチブランチ交絡因子を設計します。モデルが文のクエリとビデオの瞬間の間のセマンティクスをより適切に調整できるようにするために、機能のエンコード中の表現を強化します。具体的には、テキスト情報の場合、クエリはいくつかの動詞中心のフレーズに解析され、よりきめ細かいテキスト機能が取得されます。視覚情報については、位置情報をモーメントの特徴から分解し、さまざまな場所でのモーメントの表現を強化しています。広範な実験は、提案されたアプローチが既存のSOTAアプローチ間で競争力のある結果を達成し、基本モデルを大幅に上回っていることを示しています。
Temporal Sentence Grounding in Videos (TSGV), which aims to ground a natural language sentence in an untrimmed video, has drawn widespread attention over the past few years. However, recent studies have found that current benchmark datasets may have obvious moment annotation biases, enabling several simple baselines even without training to achieve SOTA performance. In this paper, we take a closer look at existing evaluation protocols, and find both the prevailing dataset and evaluation metrics are the devils that lead to untrustworthy benchmarking. Therefore, we propose to re-organize the two widely-used datasets, making the ground-truth moment distributions different in the training and test splits, i.e., out-of-distribution (OOD) test. Meanwhile, we introduce a new evaluation metric "dR@n,IoU@m" that discounts the basic recall scores to alleviate the inflating evaluation caused by biased datasets. New benchmarking results indicate that our proposed evaluation protocols can better monitor the research progress. Furthermore, we propose a novel causality-based Multi-branch Deconfounding Debiasing (MDD) framework for unbiased moment prediction. Specifically, we design a multi-branch deconfounder to eliminate the effects caused by multiple confounders with causal intervention. In order to help the model better align the semantics between sentence queries and video moments, we enhance the representations during feature encoding. Specifically, for textual information, the query is parsed into several verb-centered phrases to obtain a more fine-grained textual feature. For visual information, the positional information has been decomposed from moment features to enhance representations of moments with diverse locations. Extensive experiments demonstrate that our proposed approach can achieve competitive results among existing SOTA approaches and outperform the base model with great gains.
updated: Thu Mar 10 2022 08:58:18 GMT+0000 (UTC)
published: Thu Mar 10 2022 08:58:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト