arXiv reaDer
きめ細かい行動認識のための適応再帰円フレームワーク
Adaptive Recursive Circle Framework for Fine-grained Action Recognition
ビデオのきめ細かい時空間ダイナミクスをモデル化する方法は、アクション認識にとって難しい問題でした。それは微妙で抽象的な動きのための優れた特徴を備えた深くて豊かな特徴を学ぶことを必要とします。ほとんどの既存の方法は、情報が入力から出力に一方向に移動する純粋なフィードフォワード方式でレイヤーの機能を生成します。また、より強力な機能を取得するために、より多くのレイヤーをスタックすることに依存しており、無視できないオーバーヘッドが追加されています。この論文では、純粋なフィードフォワード層のためのきめの細かいデコレータである、Adaptive Recursive Circle(ARC)フレームワークを提案します。元のレイヤーの演算子とパラメーターを継承しますが、これらの演算子とパラメーターの使用方法は少し異なります。具体的には、レイヤーの入力は進化する状態として扱われ、その更新は機能の生成と交互に行われます。各再帰ステップで、入力状態は以前に生成された特徴によって強化され、特徴の生成は新しく更新された入力状態で行われます。 ARCフレームワークが、高度に洗練された機能とマルチスケールの受容野を低コストで導入することにより、きめ細かいアクション認識を促進できることを願っています。フィードフォワードベースラインに対する大幅な改善が、いくつかのベンチマークで観察されています。たとえば、ARCを装備したTSM-ResNet18は、TSM-ResNet50よりもパフォーマンスが高く、FLOPSが48%少なく、Something-Something V1およびDiving48のモデルパラメータが52%です。
How to model fine-grained spatial-temporal dynamics in videos has been a challenging problem for action recognition. It requires learning deep and rich features with superior distinctiveness for the subtle and abstract motions. Most existing methods generate features of a layer in a pure feedforward manner, where the information moves in one direction from inputs to outputs. And they rely on stacking more layers to obtain more powerful features, bringing extra non-negligible overheads. In this paper, we propose an Adaptive Recursive Circle (ARC) framework, a fine-grained decorator for pure feedforward layers. It inherits the operators and parameters of the original layer but is slightly different in the use of those operators and parameters. Specifically, the input of the layer is treated as an evolving state, and its update is alternated with the feature generation. At each recursive step, the input state is enriched by the previously generated features and the feature generation is made with the newly updated input state. We hope the ARC framework can facilitate fine-grained action recognition by introducing deeply refined features and multi-scale receptive fields at a low cost. Significant improvements over feedforward baselines are observed on several benchmarks. For example, an ARC-equipped TSM-ResNet18 outperforms TSM-ResNet50 with 48% fewer FLOPs and 52% model parameters on Something-Something V1 and Diving48.
updated: Sun Jul 25 2021 14:24:29 GMT+0000 (UTC)
published: Sun Jul 25 2021 14:24:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト