arXiv reaDer
一般的なイベント境界の検出:イベントセグメンテーションのベンチマーク
Generic Event Boundary Detection: A Benchmark for Event Segmentation
このホワイトペーパーでは、ビデオ全体をチャンクにセグメント化する、分類法のない一般的なイベント境界を検出するための新しいベンチマークとともに、新しいタスクを紹介します。時間的ビデオセグメンテーションとアクション検出の従来の作業は、事前定義されたアクションカテゴリのローカライズに焦点を合わせているため、一般的なビデオには対応していません。認知科学は、前世紀以来、人間が一貫してビデオを意味のある時間的チャンクに分割することを知っていました。このセグメンテーションは、事前定義されたイベントカテゴリがなく、明示的に要求されることなく、自然に発生します。ここでは、主流のCVデータセットでこれらの認知実験を繰り返します。分類法のないイベント境界アノテーションの複雑さに対処する新しいアノテーションガイドラインを使用して、Generic Event Boundary Detection(GEBD)と新しいベンチマークKinetics-GEBDのタスクを紹介します。私たちのKinetics-GEBDには、最も多くの境界があり(たとえば、ActivityNetの32、EPIC-Kitchens-100の8)、野生で分類法がなく、一般的なイベントの変化をカバーし、人間の知覚の多様性を尊重します。 GEBDは、動画全体を理解するための重要な足がかりと見なしており、適切なタスク定義とアノテーションが不足しているため、以前は無視されていたと考えています。実験と人間による研究を通じて、注釈の価値を実証します。さらに、TAPOSデータセットとKinetics-GEBDで、教師ありおよび教師なしGEBDアプローチのベンチマークを行い、将来の方向性を示唆するメソッド設計の調査を行います。注釈とベースラインコードは、CVPR'21 LOVEUチャレンジ(https://sites.google.com/view/loveucvpr21)でリリースされます。
This paper presents a novel task together with a new benchmark for detecting generic, taxonomy-free event boundaries that segment a whole video into chunks. Conventional work in temporal video segmentation and action detection focuses on localizing pre-defined action categories and thus does not scale to generic videos. Cognitive Science has known since last century that humans consistently segment videos into meaningful temporal chunks. This segmentation happens naturally, without pre-defined event categories and without being explicitly asked to do so. Here, we repeat these cognitive experiments on mainstream CV datasets; with our novel annotation guideline which addresses the complexities of taxonomy-free event boundary annotation, we introduce the task of Generic Event Boundary Detection (GEBD) and the new benchmark Kinetics-GEBD. Our Kinetics-GEBD has the largest number of boundaries (e.g. 32 of ActivityNet, 8 of EPIC-Kitchens-100) which are in-the-wild, taxonomy-free, cover generic event change, and respect human perception diversity. We view GEBD as an important stepping stone towards understanding the video as a whole, and believe it has been previously neglected due to a lack of proper task definition and annotations. Through experiment and human study we demonstrate the value of the annotations. Further, we benchmark supervised and un-supervised GEBD approaches on the TAPOS dataset and our Kinetics-GEBD, together with method design explorations that suggest future directions. We release our annotations and baseline codes at CVPR'21 LOVEU Challenge: https://sites.google.com/view/loveucvpr21.
updated: Mon Aug 02 2021 04:10:26 GMT+0000 (UTC)
published: Tue Jan 26 2021 01:31:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト