ビデオでの人間の行動認識は、データの多様性と複雑さのために、活発でありながら挑戦的な研究トピックです。この論文では、この複雑な問題を処理するために、相補的なキューを利用した新しいビデオベースのアクション認識フレームワークを提案します。アクション分類のための成功した2つのストリームネットワークに触発されて、追加のポーズ機能が研究および融合され、より抽象的で意味的な方法で人間のアクションの理解が強化されます。実践に向けて、グラウンドトゥルースポーズだけでなく、ノイズの多い推定ポーズも、提案されている前処理モジュールとともにフレームワークに組み込まれています。フレームワーク全体と各キューは、さまざまなベンチマークデータセットでJHMDB、サブJHMDB、およびペンアクションとして評価されます。私たちの結果は、これらのデータセットで最先端のパフォーマンスよりも優れており、補完的なキューの強さを示しています。
Human action recognition in video is an active yet challenging research topic due to high variation and complexity of data. In this paper, a novel video based action recognition framework utilizing complementary cues is proposed to handle this complex problem. Inspired by the successful two stream networks for action classification, additional pose features are studied and fused to enhance understanding of human action in a more abstract and semantic way. Towards practices, not only ground truth poses but also noisy estimated poses are incorporated in the framework with our proposed pre-processing module. The whole framework and each cue are evaluated on varied benchmarking datasets as JHMDB, sub-JHMDB and Penn Action. Our results outperform state-of-the-art performance on these datasets and show the strength of complementary cues.