arXiv reaDer
TAEC: 時間認識埋め込みとクラスタリングによる教師なしアクション セグメンテーション
TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering
トリミングされていないビデオの一時的なアクションのセグメンテーションは、最近注目を集めています。ただし、アクション クラスとフレーム単位の境界に注釈を付けるには、特に大規模なデータセットでは、非常に時間がかかり、コストがかかります。この問題に対処するために、トリミングされていないビデオ シーケンスからアクション クラスを学習するための教師なしアプローチを提案します。特に、ビデオ機能の空間レイアウトとシーケンシャルな性質を維持するために、相対時間予測、機能再構成、およびシーケンスからシーケンスへの学習を組み合わせた一時的な埋め込みネットワークを提案します。これらの埋め込まれた特徴表現に対する 2 段階のクラスタリング パイプラインにより、ビデオ内だけでなくビデオ間でも時間的な一貫性を確保できます。識別されたクラスターに基づいて、意味的に意味のあるアクション クラスに対応する一貫した時間セグメントにビデオをデコードします。 3 つの挑戦的なデータセットに対する評価は、各コンポーネントの影響を示し、さらに、最先端の教師なしアクション セグメンテーションの結果を示しています。
Temporal action segmentation in untrimmed videos has gained increased attention recently. However, annotating action classes and frame-wise boundaries is extremely time consuming and cost intensive, especially on large-scale datasets. To address this issue, we propose an unsupervised approach for learning action classes from untrimmed video sequences. In particular, we propose a temporal embedding network that combines relative time prediction, feature reconstruction, and sequence-to-sequence learning, to preserve the spatial layout and sequential nature of the video features. A two-step clustering pipeline on these embedded feature representations then allows us to enforce temporal consistency within, as well as across videos. Based on the identified clusters, we decode the video into coherent temporal segments that correspond to semantically meaningful action classes. Our evaluation on three challenging datasets shows the impact of each component and, furthermore, demonstrates our state-of-the-art unsupervised action segmentation results.
updated: Thu Mar 09 2023 10:46:23 GMT+0000 (UTC)
published: Thu Mar 09 2023 10:46:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト