arXiv reaDer
GEB +:一般的なイベント境界のキャプション、グラウンディング、テキストベースの検索のベンチマーク
GEB+: A benchmark for generic event boundary captioning, grounding and text-based retrieval
認知科学は、人間が支配的な主題の状態変化によって分離されたイベントの観点からビデオを知覚することを示しています。状態の変化は新しいイベントをトリガーし、認識される大量の冗長な情報の中で最も有用なものの1つです。ただし、以前の調査では、内部の詳細なステータスの変化を評価することなく、セグメントの全体的な理解に焦点を当てています。このホワイトペーパーでは、Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを紹介します。データセットは、12Kビデオの一般的なイベントのステータス変更を説明するキャプションに関連付けられた17万を超える境界で構成されています。この新しいデータセットに基づいて、ステータスの変更を通じて、ビデオのよりきめ細かく、堅牢で、人間のような理解の開発をサポートする3つのタスクを提案します。データセット内の多くの代表的なベースラインを評価します。ここでは、現在の最先端のバックボーン用の新しいTPD(時間ベースのペアワイズ差分)モデリング手法も設計し、パフォーマンスを大幅に向上させます。さらに、結果は、さまざまな粒度の利用、視覚的な違いの表現、およびステータスの変化の正確なローカリゼーションにおいて、現在の方法には依然として手ごわい課題があることを示しています。さらなる分析は、私たちのデータセットがステータスの変化を理解し、ビデオレベルの理解を向上させるためのより強力な方法の開発を推進できることを示しています。
Cognitive science has shown that humans perceive videos in terms of events separated by state changes of dominant subjects. State changes trigger new events and are one of the most useful among the large amount of redundant information perceived. However, previous research focuses on the overall understanding of segments without evaluating the fine-grained status changes inside. In this paper, we introduce a new dataset called Kinetic-GEBC (Generic Event Boundary Captioning). The dataset consists of over 170k boundaries associated with captions describing status changes in the generic events in 12K videos. Upon this new dataset, we propose three tasks supporting the development of a more fine-grained, robust, and human-like understanding of videos through status changes. We evaluate many representative baselines in our dataset, where we also design a new TPD (Temporal-based Pairwise Difference) Modeling method for current state-of-the-art backbones and achieve significant performance improvements. Besides, the results show there are still formidable challenges for current methods in the utilization of different granularities, representation of visual difference, and the accurate localization of status changes. Further analysis shows that our dataset can drive developing more powerful methods to understand status changes and thus improve video level comprehension.
updated: Sun Apr 10 2022 04:19:54 GMT+0000 (UTC)
published: Fri Apr 01 2022 14:45:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト