arXiv reaDer
ActAR:ビデオアクション認識のための俳優主導のポーズ埋め込み
ActAR: Actor-Driven Pose Embeddings for Video Action Recognition
ビデオでの人間の行動認識(HAR)は、ビデオ理解のコアタスクの1つです。ビデオシーケンスに基づいて、目標は人間によって実行されたアクションを認識することです。 HARは可視スペクトルで多くの注目を集めていますが、赤外線ビデオでの行動認識はほとんど研究されていません。赤外線領域での人間の行動を正確に認識することは、シーケンスに冗長で区別できないテクスチャ機能が存在するため、非常に困難な作業です。さらに、場合によっては、実際の関心のある行動に貢献していない複数の活動的な人物の存在によって引き起こされた無関係な情報から課題が発生します。したがって、ほとんどの既存の方法は、これらの課題を考慮しない標準的なパラダイムを考慮しています。これは、場合によっては認識タスクの定義があいまいであることが原因の1つです。本論文では、事前の知識や明示的な注釈を使用せずに、アクションを実行するキーアクターを自動的に識別しながら、赤外線スペクトルで人間のアクションを効率的に認識することを同時に学習する新しい方法を提案します。私たちの方法は3つの段階で構成されています。最初の段階では、オプティカルフローベースのキーアクターの識別が実行されます。次に、キーアクターごとに、フレーム選択プロセスをガイドするキーポーズを推定します。アクション表現の品質を向上させるために、埋め込まれたポーズフィルタリングとともにスケール不変のエンコーディングプロセスが実行されます。 InfARデータセットの実験結果は、提案されたモデルが有望な認識パフォーマンスを達成し、有用なアクション表現を学習することを示しています。
Human action recognition (HAR) in videos is one of the core tasks of video understanding. Based on video sequences, the goal is to recognize actions performed by humans. While HAR has received much attention in the visible spectrum, action recognition in infrared videos is little studied. Accurate recognition of human actions in the infrared domain is a highly challenging task because of the redundant and indistinguishable texture features present in the sequence. Furthermore, in some cases, challenges arise from the irrelevant information induced by the presence of multiple active persons not contributing to the actual action of interest. Therefore, most existing methods consider a standard paradigm that does not take into account these challenges, which is in some part due to the ambiguous definition of the recognition task in some cases. In this paper, we propose a new method that simultaneously learns to recognize efficiently human actions in the infrared spectrum, while automatically identifying the key-actors performing the action without using any prior knowledge or explicit annotations. Our method is composed of three stages. In the first stage, optical flow-based key-actor identification is performed. Then for each key-actor, we estimate key-poses that will guide the frame selection process. A scale-invariant encoding process along with embedded pose filtering are performed in order to enhance the quality of action representations. Experimental results on InfAR dataset show that our proposed model achieves promising recognition performance and learns useful action representations.
updated: Tue Apr 19 2022 05:12:24 GMT+0000 (UTC)
published: Tue Apr 19 2022 05:12:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト