arXiv reaDer
ディープビデオアクション認識の包括的な研究
A Comprehensive Study of Deep Video Action Recognition
ビデオアクション認識は、ビデオを理解するための代表的なタスクの1つです。過去10年間で、ディープラーニングの出現により、ビデオアクション認識が大幅に進歩しました。しかし、ビデオでの長距離の時間情報のモデリング、高い計算コスト、データセットと評価プロトコルの差異による比類のない結果など、新しい課題にも直面しました。この論文では、ビデオ行動認識のための深層学習に関する200を超える既存の論文の包括的な調査を提供します。最初に、モデルの設計に影響を与えた17のビデオアクション認識データセットを紹介します。次に、ビデオアクション認識モデルを時系列で示します。ディープラーニングを適応させる初期の試みから始まり、2ストリームネットワーク、3D畳み込みカーネルの採用、そして最後に最近の計算効率の高いモデルです。さらに、いくつかの代表的なデータセットで一般的な方法のベンチマークを行い、再現性のためにコードをリリースします。最後に、未解決の問題について話し合い、新しい研究アイデアを促進するためのビデオアクション認識の機会に光を当てます。
Video action recognition is one of the representative tasks for video understanding. Over the last decade, we have witnessed great advancements in video action recognition thanks to the emergence of deep learning. But we also encountered new challenges, including modeling long-range temporal information in videos, high computation costs, and incomparable results due to datasets and evaluation protocol variances. In this paper, we provide a comprehensive survey of over 200 existing papers on deep learning for video action recognition. We first introduce the 17 video action recognition datasets that influenced the design of models. Then we present video action recognition models in chronological order: starting with early attempts at adapting deep learning, then to the two-stream networks, followed by the adoption of 3D convolutional kernels, and finally to the recent compute-efficient models. In addition, we benchmark popular methods on several representative datasets and release code for reproducibility. In the end, we discuss open problems and shed light on opportunities for video action recognition to facilitate new research ideas.
updated: Fri Dec 11 2020 18:54:08 GMT+0000 (UTC)
published: Fri Dec 11 2020 18:54:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト