arXiv reaDer
Transformerベースのビデオセマンティック埋め込みによるゼロショットアクション認識
Zero-Shot Action Recognition with Transformer-based Video Semantic Embedding
ビデオアクション認識は数年前から活発な研究分野でしたが、ゼロショットアクション認識は最近注目を集め始めたばかりです。ただし、ゼロショット学習パラダイムの正式な定義が不足しているため、これまで見られなかったと見なすことができるクラスについての不確実性が生じます。この作業では、現実的な観点から、帰納的ゼロショット行動認識問題を新たに包括的に考察します。具体的には、トレーニングクラスとテストクラスの正確な重複を回避し、クラス内の分散を制限する、ゼロショットアクション認識の具体的な定式化を提唱します。 3D-CNNを使用する既存のアプローチとは対照的に、長距離の時空間依存関係を効率的にキャプチャできる新しいエンドツーエンドのトレーニング済みトランスモデルを提案します。提案されたアプローチは、すべてのベンチマークデータセットの多くの設定で、既存の最先端のアルゴリズムを大幅に上回っています。
While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. However, there is a lack of a formal definition for the zero-shot learning paradigm leading to uncertainty about classes that can be considered as previously unseen. In this work, we take a new comprehensive look at the inductive zero-shot action recognition problem from a realistic standpoint. Specifically, we advocate for a concrete formulation for zero-shot action recognition that avoids an exact overlap between the training and testing classes and also limits the intra-class variance; and propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. The proposed approach outperforms the existing state-of-the-art algorithms in many settings on all benchmark datasets by a wide margin.
updated: Thu Mar 10 2022 05:03:58 GMT+0000 (UTC)
published: Thu Mar 10 2022 05:03:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト