arXiv reaDer
HAA4D:3D時空間骨格アライメントによる少数のショットの人間の原子行動認識
HAA4D: Few-Shot Human Atomic Action Recognition via 3D Spatio-Temporal Skeletal Alignment
人間の行動には複雑なポーズの変化が含まれ、その2D投影は非常にあいまいになる可能性があります。したがって、測光および視点不変である3D時空間または4D(つまり、3D + T)人間の骨格は、行動認識の精度を向上させるための2D + T骨格/ピクセルの優れた代替手段です。この論文は、300の人間の原子アクションクラスの3,300以上のRGBビデオで構成される新しい4DデータセットHAA4Dを提案します。 HAA4Dはクリーンで多様性があり、クラスのバランスが取れており、各クラスは4Dスケルトンを使用して視点のバランスが取れており、深い認識モデルをトレーニングするには、クラスごとに1つの4Dスケルトンで十分です。さらに、各ビデオクリップは数秒しか持続しないため、アトミックアクションを選択すると注釈がさらに簡単になります。 HAA4Dのすべてのトレーニングおよびテスト3Dスケルトンは、同じグローバルスペースへのディープアラインメントモデルを使用してグローバルにアラインメントされ、各スケルトンが負のz方向を向くようにします。このような配置により、クラス内の変動が減少し、アクション認識に必要なクラスごとのトレーニングサンプルが少なくなるため、スケルトンのマッチングがより安定します。 HAA4Dの高い多様性と骨格アライメントを考慮して、ベルやホイッスルのない最初のベースラインの数ショット4D人間の原子活動認識ネットワークを構築します。これにより、埋め込みスペースエンコーディングに依存する関連する最先端の技術と同等またはそれ以上のパフォーマンスが得られます。明示的な骨格の配置なしで、見えないクラスの同じ少数のトレーニングサンプルを使用します。
Human actions involve complex pose variations and their 2D projections can be highly ambiguous. Thus 3D spatio-temporal or 4D (i.e., 3D+T) human skeletons, which are photometric and viewpoint invariant, are an excellent alternative to 2D+T skeletons/pixels to improve action recognition accuracy. This paper proposes a new 4D dataset HAA4D which consists of more than 3,300 RGB videos in 300 human atomic action classes. HAA4D is clean, diverse, class-balanced where each class is viewpoint-balanced with the use of 4D skeletons, in which as few as one 4D skeleton per class is sufficient for training a deep recognition model. Further, the choice of atomic actions makes annotation even easier, because each video clip lasts for only a few seconds. All training and testing 3D skeletons in HAA4D are globally aligned, using a deep alignment model to the same global space, making each skeleton face the negative z-direction. Such alignment makes matching skeletons more stable by reducing intraclass variations and thus with fewer training samples per class needed for action recognition. Given the high diversity and skeletal alignment in HAA4D, we construct the first baseline few-shot 4D human atomic action recognition network without bells and whistles, which produces comparable or higher performance than relevant state-of-the-art techniques relying on embedded space encoding without explicit skeletal alignment, using the same small number of training samples of unseen classes.
updated: Tue Feb 15 2022 10:55:21 GMT+0000 (UTC)
published: Tue Feb 15 2022 10:55:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト