スマートカーや手術ロボットなど、いくつかの自律システムの意思決定プロセスでは、長期にわたる複雑なアクティビティの認識とローカリゼーションが重要になる可能性があります。それにもかかわらず、現在のほとんどの方法は、数フレームまたは数秒しか続かない短期間のアクション/アクティビティまたはアトミックアクションの組み合わせを単にローカライズするように設計されています。この論文では、新しい変形可能な時空間パーツベースのモデルを介して、長期的な複雑な活動の検出の問題に対処します。私たちのフレームワークは、(i)アクションチューブの検出、(ii)パーツの変形可能なジオメトリのモデリング、および(iii)スパース性メカニズムの3つの主要な構成要素で構成されています。まず、アクションチューブは、アクションチューブ検出器を使用して一連のスニペットで検出されます。次に、新しい3D変形可能RoIプーリング層を設計して、パーツのコンステレーションの柔軟で変形可能なジオメトリを学習します。最後に、スパース性戦略は、アクティブ化された機能と非アクティブ化された機能を区別します。また、最近リリースされたROAD自動運転データセットとSARAS-ESAD手術アクションデータセットの時間的で複雑なアクティビティアノテーションを提供して、メソッドを検証し、さまざまなドメインへのフレームワークの適応性を示します。どちらにも長期的な活動を描いた長いビデオが含まれているため、この分野での将来の作業のベンチマークとして使用できます。
Long-term complex activity recognition and localisation can be crucial for the decision-making process of several autonomous systems, such as smart cars and surgical robots. Nonetheless, most current methods are designed to merely localise short-term action/activities or combinations of atomic actions that only last for a few frames or seconds. In this paper, we address the problem of long-term complex activity detection via a novel deformable, spatiotemporal parts-based model. Our framework consists of three main building blocks: (i) action tube detection, (ii) the modelling of the deformable geometry of parts, and (iii) a sparsity mechanism. Firstly, action tubes are detected in a series of snippets using an action tube detector. Next, a new 3D deformable RoI pooling layer is designed for learning the flexible, deformable geometry of the constellation of parts. Finally, a sparsity strategy differentiates between activated and deactivate features. We also provide temporal complex activity annotation for the recently released ROAD autonomous driving dataset and the SARAS-ESAD surgical action dataset, to validate our method and show the adaptability of our framework to different domains. As they both contain long videos portraying long-term activities they can be used as benchmarks for future work in this area.