このホワイトペーパーでは、Webビデオから収集された人間の行動の認識と一時的なローカリゼーションのための新しい大規模なデータセットを示します。これをHACS(Human Action Clips and Segments)と呼びます。視覚的分類器間のコンセンサスと意見の不一致の両方を活用して、ラベル付けされていないビデオから候補の短いクリップを自動的にマイニングします。結果のデータセットは、HACSクリップと呼ばれます。別のプロセスを通じて、アクションセグメントの境界を定義する注釈も収集します。この結果のデータセットはHACSセグメントと呼ばれます。全体として、HACS Clipsは、504Kのトリミングされていないビデオからサンプリングされた1.5Mの注釈付きクリップで構成され、HACS Seg-mentsには、200のアクションカテゴリにわたる50Kのトリミングされていないビデオで高密度に注釈付けされた139Kのアクションセグメントが含まれています。 HACS Clipsには、既存のビデオベンチマークよりも多くのラベル付きサンプルが含まれています。これにより、データセットは大規模なアクション認識ベンチマークと時空間特徴学習の優れたソースの両方になります。 3つのターゲットデータセットに対するトランスファーラーニング実験では、HACS ClipsはKinetics-600、Moments-In-Time、およびSports1Masを事前トレーニングソースよりも優れています。 HACSセグメントでは、アクションプロポーザルの生成とアクションのローカリゼーションの最先端の方法を評価し、高密度の時間的アノテーションによってもたらされる新しい課題を強調しています。
This paper presents a new large-scale dataset for recognition and temporal localization of human actions collected from Web videos. We refer to it as HACS (Human Action Clips and Segments). We leverage both consensus and disagreement among visual classifiers to automatically mine candidate short clips from unlabeled videos, which are subsequently validated by human annotators. The resulting dataset is dubbed HACS Clips. Through a separate process we also collect annotations defining action segment boundaries. This resulting dataset is called HACS Segments. Overall, HACS Clips consists of 1.5M annotated clips sampled from 504K untrimmed videos, and HACS Seg-ments contains 139K action segments densely annotatedin 50K untrimmed videos spanning 200 action categories. HACS Clips contains more labeled examples than any existing video benchmark. This renders our dataset both a large scale action recognition benchmark and an excellent source for spatiotemporal feature learning. In our transferlearning experiments on three target datasets, HACS Clips outperforms Kinetics-600, Moments-In-Time and Sports1Mas a pretraining source. On HACS Segments, we evaluate state-of-the-art methods of action proposal generation and action localization, and highlight the new challenges posed by our dense temporal annotations.