arXiv reaDer
深さを意識した行動認識:時間的ヒートマップによるポーズモーションエンコーディング
Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal Heatmaps
アクション認識のためのほとんどの最先端の方法は、外観、動き、またはポーズをエンコードする2D空間機能のみに依存しています。ただし、2Dデータには深度情報がありません。これは、きめ細かいアクションを認識するために重要です。この論文では、実際の行動分類のために、ポーズと動きの情報を統一された表現でエンコードする深度認識ボリューム記述子を提案します。私たちのフレームワークは、視点、シーン、衣服、体型の変化など、行動認識に固有の多くの課題に対して堅牢です。私たちの方法の重要なコンポーネントは、人体のセマンティックキーポイントの3D動きをエンコードする新しいビデオ記述子である、深度認識ポーズモーション表現(DA-PoTion)です。ビデオを使用して、最先端の3D人間ポーズリグレッサを使用して各フレームの人間の関節ヒートマップを作成し、クリップ内の相対時間に応じてそれぞれに一意のカラーコードを与えます。次に、このような3D時間エンコードされたすべての人間の関節のヒートマップを集約して、浅い3D畳み込みニューラルネットワーク(CNN)を使用してアクションを分類するのに適した固定サイズの記述子(DA-PoTion)を取得します。 DA-PoTionだけで、ペンアクションデータセットの新しい最先端技術を定義します。さらに、Inflated 3D ConvNet(I3D)と組み合わせて、JHMDBデータセットに新しい最先端技術を定義することにより、外観ベースのアプローチでポーズモーション記述子の本質的な相補性を活用します。
Most state-of-the-art methods for action recognition rely only on 2D spatial features encoding appearance, motion or pose. However, 2D data lacks the depth information, which is crucial for recognizing fine-grained actions. In this paper, we propose a depth-aware volumetric descriptor that encodes pose and motion information in a unified representation for action classification in-the-wild. Our framework is robust to many challenges inherent to action recognition, e.g. variation in viewpoint, scene, clothing and body shape. The key component of our method is the Depth-Aware Pose Motion representation (DA-PoTion), a new video descriptor that encodes the 3D movement of semantic keypoints of the human body. Given a video, we produce human joint heatmaps for each frame using a state-of-the-art 3D human pose regressor and we give each of them a unique color code according to the relative time in the clip. Then, we aggregate such 3D time-encoded heatmaps for all human joints to obtain a fixed-size descriptor (DA-PoTion), which is suitable for classifying actions using a shallow 3D convolutional neural network (CNN). The DA-PoTion alone defines a new state-of-the-art on the Penn Action Dataset. Moreover, we leverage the intrinsic complementarity of our pose motion descriptor with appearance based approaches by combining it with Inflated 3D ConvNet (I3D) to define a new state-of-the-art on the JHMDB Dataset.
updated: Thu Nov 26 2020 17:26:42 GMT+0000 (UTC)
published: Thu Nov 26 2020 17:26:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト