arXiv reaDer
適応型の時間的特徴解像度を備えた3DCNN
3D CNNs with Adaptive Temporal Feature Resolutions
最先端の3D畳み込みニューラルネットワーク(CNN)は、アクション認識データセットで非常に優れた結果を達成しますが、計算コストが非常に高く、多くのGFLOPを必要とします。 3D CNNのGFLOPは、ネットワーク内の時間的特徴解像度を下げることで減らすことができますが、すべての入力クリップに最適な設定はありません。したがって、この作業では、既存の3D CNNアーキテクチャにプラグインできる、微分可能な類似性ガイド付きサンプリング(SGS)モジュールを紹介します。 SGSは、時間的特徴の類似性を学習し、類似した特徴をグループ化することにより、3DCNNを強化します。その結果、時間的特徴の解像度はもはや静的ではありませんが、入力ビデオクリップごとに異なります。 SGSを現在の3DCNN内の追加レイヤーとして統合することにより、SGSを適応型時間特徴解像度(ATFR)を備えたはるかに効率的な3DCNNに変換できます。私たちの評価は、提案されたモジュールが、精度を維持または改善しながら、計算コスト(GFLOP)を半分に削減することにより、最先端技術を改善することを示しています。モジュールを、Kinetics-600、Kinetics-400、mini-Kinetics、Something-Something V2、UCF101、HMDB51などのさまざまなデータセット上の複数の最先端の3DCNNに追加することで評価します。
While state-of-the-art 3D Convolutional Neural Networks (CNN) achieve very good results on action recognition datasets, they are computationally very expensive and require many GFLOPs. While the GFLOPs of a 3D CNN can be decreased by reducing the temporal feature resolution within the network, there is no setting that is optimal for all input clips. In this work, we therefore introduce a differentiable Similarity Guided Sampling (SGS) module, which can be plugged into any existing 3D CNN architecture. SGS empowers 3D CNNs by learning the similarity of temporal features and grouping similar features together. As a result, the temporal feature resolution is not anymore static but it varies for each input video clip. By integrating SGS as an additional layer within current 3D CNNs, we can convert them into much more efficient 3D CNNs with adaptive temporal feature resolutions (ATFR). Our evaluations show that the proposed module improves the state-of-the-art by reducing the computational cost (GFLOPs) by half while preserving or even improving the accuracy. We evaluate our module by adding it to multiple state-of-the-art 3D CNNs on various datasets such as Kinetics-600, Kinetics-400, mini-Kinetics, Something-Something V2, UCF101, and HMDB51.
updated: Wed Aug 11 2021 09:14:20 GMT+0000 (UTC)
published: Tue Nov 17 2020 14:34:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト