arXiv reaDer
数ショットの行動認識のための時空間関係モデリング
Spatio-temporal Relation Modeling for Few-shot Action Recognition
高次の時間的表現を同時に学習しながら、クラス固有の特徴の識別可能性を強化する、新しい数ショットのアクション認識フレームワーク、STRMを提案します。私たちのアプローチの焦点は、専用のローカルパッチレベルおよびグローバルフレームレベルの機能強化サブモジュールを使用して、空間的および時間的コンテキストを集約する新しい時空間強化モジュールです。ローカルパッチレベルのエンリッチメントは、アクションの外観ベースの特性をキャプチャします。一方、グローバルフレームレベルのエンリッチメントは、広い時間的コンテキストを明示的にエンコードし、それによって時間の経過とともに関連するオブジェクトの特徴をキャプチャします。結果として得られる時空間的に強化された表現は、クエリとサポートアクションのサブシーケンス間のリレーショナルマッチングを学習するために利用されます。さらに、パッチレベルの強化された機能にクエリクラス類似性分類子を導入して、提案されたフレームワークのさまざまな段階で機能学習を強化することにより、クラス固有の機能の識別可能性を強化します。実験は、Kinetics、SSv2、HMDB51、およびUCF101の4つの数ショットアクション認識ベンチマークで実行されます。私たちの広範なアブレーション研究は、提案された貢献の利点を明らかにしています。さらに、私たちのアプローチは、4つのベンチマークすべてに新しい最先端を設定します。挑戦的なSSv2ベンチマークでは、私たちのアプローチは、文献の既存の最良の方法と比較して、分類精度で3.5%の絶対ゲインを達成します。私たちのコードとモデルは公開されます。
We propose a novel few-shot action recognition framework, STRM, which enhances class-specific feature discriminability while simultaneously learning higher-order temporal representations. The focus of our approach is a novel spatio-temporal enrichment module that aggregates spatial and temporal contexts with dedicated local patch-level and global frame-level feature enrichment sub-modules. Local patch-level enrichment captures the appearance-based characteristics of actions. On the other hand, global frame-level enrichment explicitly encodes the broad temporal context, thereby capturing the relevant object features over time. The resulting spatio-temporally enriched representations are then utilized to learn the relational matching between query and support action sub-sequences. We further introduce a query-class similarity classifier on the patch-level enriched features to enhance class-specific feature discriminability by reinforcing the feature learning at different stages in the proposed framework. Experiments are performed on four few-shot action recognition benchmarks: Kinetics, SSv2, HMDB51 and UCF101. Our extensive ablation study reveals the benefits of the proposed contributions. Furthermore, our approach sets a new state-of-the-art on all four benchmarks. On the challenging SSv2 benchmark, our approach achieves an absolute gain of 3.5% in classification accuracy, as compared to the best existing method in the literature. Our code and models will be publicly released.
updated: Thu Dec 09 2021 18:59:14 GMT+0000 (UTC)
published: Thu Dec 09 2021 18:59:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト