アクション認識は、コンピュータービジョンの重要な研究トピックです。それは視覚的理解のための基本的な仕事であり、多くの分野で応用されています。人間の行動は環境によって異なる可能性があるため、同じ構造モデルでまったく異なる状態の行動を推測することは困難です。この場合、クロスエンハンスメント変換2ストリーム3D ConvNetsアルゴリズムを提案します。これは、特定のデータセットのアクション分布特性を考慮します。教育モデルとして、両方のストリームのパフォーマンスが向上したストリームは、別のストリームのトレーニングに役立つことが期待されます。このようにして、強化されたトレーニングストリームと教師ストリームを組み合わせて、アクションを推測します。ビデオデータセットUCF-101、HMDB-51、およびKinetics-400で実験を実施し、結果からアルゴリズムの有効性が確認されました。
Action recognition is an important research topic in computer vision. It is the basic work for visual understanding and has been applied in many fields. Since human actions can vary in different environments, it is difficult to infer actions in completely different states with a same structural model. For this case, we propose a Cross-Enhancement Transform Two-Stream 3D ConvNets algorithm, which considers the action distribution characteristics on the specific dataset. As a teaching model, stream with better performance in both streams is expected to assist in training another stream. In this way, the enhanced-trained stream and teacher stream are combined to infer actions. We implement experiments on the video datasets UCF-101, HMDB-51, and Kinetics-400, and the results confirm the effectiveness of our algorithm.