SSCAP: Self-supervised Co-occurrence Action Parsing for Unsupervised Temporal Action Segmentation
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクです。ただし、包括的な教師ありトレーニングデータセットを構築するために、ビデオの大規模なコーパス内のすべてのフレームに注釈を付けることは非常にコストがかかります。したがって、この作業では、ラベルのないビデオのコーパスを操作し、ビデオ全体の時間セグメントの可能性のあるセットを予測する、教師なし方法、つまりSSCAPを提案します。 SSCAPは、自己監視学習を活用して識別可能な特徴を抽出し、新しい共起アクション解析アルゴリズムを適用して、アクティビティの構造の基礎となるサブアクション間の相関関係をキャプチャするだけでなく、正確で一般的な方法。従来のデータセット(Breakfast、50Salads)と、より複雑なアクティビティ構造と同様のサブアクションを備えた新しいきめ細かいアクションデータセット(FineGym)の両方で評価します。結果は、SSCAPがすべてのデータセットで最先端のパフォーマンスを達成し、一部の弱く監視されたアプローチよりも優れたパフォーマンスを発揮できることを示しており、その有効性と一般化可能性を示しています。
Temporal action segmentation is a task to classify each frame in the video with an action label. However, it is quite expensive to annotate every frame in a large corpus of videos to construct a comprehensive supervised training dataset. Thus in this work we propose an unsupervised method, namely SSCAP, that operates on a corpus of unlabeled videos and predicts a likely set of temporal segments across the videos. SSCAP leverages Self-Supervised learning to extract distinguishable features and then applies a novel Co-occurrence Action Parsing algorithm to not only capture the correlation among sub-actions underlying the structure of activities, but also estimate the temporal path of the sub-actions in an accurate and general way. We evaluate on both classic datasets (Breakfast, 50Salads) and the emerging fine-grained action dataset (FineGym) with more complex activity structures and similar sub-actions. Results show that SSCAP achieves state-of-the-art performance on all datasets and can even outperform some weakly-supervised approaches, demonstrating its effectiveness and generalizability.
updated: Mon Oct 25 2021 17:01:38 GMT+0000 (UTC)
published: Sat May 29 2021 00:29:40 GMT+0000 (UTC)
