ヒューマン アクション レコグニション (HAR) には、ビデオ シーケンスに存在するアクションを分類するタスクが含まれます。これには興味深い問題がありますが、パターン認識において最も困難な領域の 1 つです。畳み込みニューラル ネットワーク (ConvNets) は、画像認識および関連分野で並外れた成功を収めています。ただし、一時的な特徴を考慮することが重要であるため、これらの高度な手法が常に HAR に直接適用できるとは限りません。この論文では、画像認識に関する最近の研究を利用して、ビデオでアクションを学習するための動的な PSO-ConvNet モデルを提示します。私たちの方法は、各ニューラル ネットワークの重みベクトルが位相空間内の粒子の位置として機能し、粒子が現在の重みベクトルと損失関数の勾配推定値を交換するフレームワークに基づいています。 ConvNet を Transformer や Recurrent Neural Networks などの最先端の時間的手法と統合することで、ビデオへのアプローチを拡張します。その結果、UCF-101 データセットで最大 9% の改善が見られ、大幅な進歩が見られました。コードは https://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learning-with-Dynamics で入手できます。
Human Action Recognition (HAR) involves the task of categorizing actions present in video sequences. Although it presents interesting problems, it remains one of the most challenging domains in pattern recognition. Convolutional Neural Networks (ConvNets) have demonstrated exceptional success in image recognition and related areas. However, these advanced techniques are not always directly applicable to HAR, as the consideration of temporal features is crucial. In this paper, we present a dynamic PSO-ConvNet model for learning actions in video, drawing on our recent research in image recognition. Our methods are based on a framework where the weight vector of each neural network serves as the position of a particle in phase space, and particles exchange their current weight vectors and gradient estimates of the Loss function. We extend the approach to video by integrating a ConvNet with state-of-the-art temporal methods such as Transformer and Recurrent Neural Networks. The results reveal substantial advancements, with improvements of up to 9% on UCF-101 dataset. The code is available at https://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learning-with-Dynamics.