arXiv reaDer
高レベルの複雑なアクティビティラベルを使用した一時的なアクションのセグメンテーション
Temporal Action Segmentation with High-level Complex Activity Labels
過去数年にわたって、短いトリミングされたビデオでのアクション認識の成功は、トリミングされていない長いビデオでのアクションの時間的セグメンテーションに向けてより多くの調査を導きました。最近、教師ありアプローチは、トリミングされていないビデオで複雑な人間の行動をセグメント化する際に優れたパフォーマンスを達成しました。ただし、アクションラベルに加えて、このようなアプローチでは、各アクションの開始点と終了点も必要であり、収集するのに費用と手間がかかります。この論文では、高レベルのアクティビティラベルのみを入力として使用するアクションセグメントを学習することを目的としています。アクションレベルの監視が提供されていない設定では、ハンガリーのマッチングを使用して、セグメントとグラウンドトゥルースアクション間のマッピングを見つけ、モデルを評価してパフォーマンスを報告することがよくあります。一方では、高レベルの監督により、ハンガリーのマッチング設定を現在のビデオおよびアクティビティレベルからグローバルレベルに一般化できることを示しています。拡張されたグローバルレベルのマッチングにより、アクティビティ間でアクションを共有できます。一方、アクティビティ分類タスクを使用して、ビデオ内の構成アクションを自動的に検出する新しいアクション検出フレームワークを提案します。具体的には、有限数のプロトタイプを定義して、ビデオシーケンスの二重表現を形成します。これらの集合的に学習されたプロトタイプは、発見されたアクションと見なされます。この分類設定により、複数の複雑なアクティビティ間で共有される可能性のあるアクションを検出する機能がアプローチに与えられます。広範な実験は、発見されたアクションが一時的なアクションのセグメンテーションとアクティビティの認識を実行するのに役立つことを示しています。
Over the past few years, the success in action recognition on short trimmed videos has led more investigations towards the temporal segmentation of actions in untrimmed long videos. Recently, supervised approaches have achieved excellent performance in segmenting complex human actions in untrimmed videos. However, besides action labels, such approaches also require the start and end points of each action, which is expensive and tedious to collect. In this paper, we aim to learn the action segments taking only the high-level activity labels as input. Under the setting where no action-level supervision is provided, Hungarian matching is often used to find the mapping between segments and ground truth actions to evaluate the model and report the performance. On the one hand, we show that with the high-level supervision, we are able to generalize the Hungarian matching settings from the current video and activity level to the global level. The extended global-level matching allows for the shared actions across activities. On the other hand, we propose a novel action discovery framework that automatically discovers constituent actions in videos with the activity classification task. Specifically, we define a finite number of prototypes to form a dual representation of a video sequence. These collectively learned prototypes are considered discovered actions. This classification setting endows our approach the capability of discovering potentially shared actions across multiple complex activities. Extensive experiments demonstrate that the discovered actions are helpful in performing temporal action segmentation and activity recognition.
updated: Sun Aug 15 2021 09:50:42 GMT+0000 (UTC)
published: Sun Aug 15 2021 09:50:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト