arXiv reaDer
STAR: Sparse Transformer-based Action Recognition
人間の行動と行動の認知システムは深層学習体制に進化し、特にグラフ畳み込みネットワークの出現は近年この分野を変革しました。ただし、これまでの作業は、密グラフ畳み込みネットワークに基づくパラメーター化された複雑なモデルに主に焦点を当てていたため、トレーニングと推論の効率が低くなりました。一方、Transformerアーキテクチャベースのモデルは、人間の行動や行動の推定における認知的応用についてはまだ十分に検討されていません。この作品は、空間次元にまばらな注意とデータの時間次元にセグメント化された線形注意を備えた新しい骨格ベースの人間の行動認識モデルを提案します。私たちのモデルは、単一のバッチとしてグループ化された可変長のビデオクリップを処理することもできます。実験によると、私たちのモデルは、トレーニング可能なパラメーターをはるかに少なく利用しながら同等のパフォーマンスを達成し、トレーニングと推論を高速化できることが示されています。実験によると、私たちのモデルは、ベースラインモデルと比較して4〜18倍のスピードアップと1 / 7〜1 / 15のモデルサイズを競争力のある精度で達成しています。
The cognitive system for human action and behavior has evolved into a deep learning regime, and especially the advent of Graph Convolution Networks has transformed the field in recent years. However, previous works have mainly focused on over-parameterized and complex models based on dense graph convolution networks, resulting in low efficiency in training and inference. Meanwhile, the Transformer architecture-based model has not yet been well explored for cognitive application in human action and behavior estimation. This work proposes a novel skeleton-based human action recognition model with sparse attention on the spatial dimension and segmented linear attention on the temporal dimension of data. Our model can also process the variable length of video clips grouped as a single batch. Experiments show that our model can achieve comparable performance while utilizing much less trainable parameters and achieve high speed in training and inference. Experiments show that our model achieves 4~18x speedup and 1/7~1/15 model size compared with the baseline models at competitive accuracy.
updated: Thu Jul 15 2021 02:53:11 GMT+0000 (UTC)
published: Thu Jul 15 2021 02:53:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト