arXiv reaDer
SequentialPointNet:3Dアクション認識のための強力な並列化されたポイントクラウドシーケンスネットワーク
SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition
3Dヒューマンアクションのポイントクラウドシーケンスは、順序付けられていないフレーム内空間情報と順序付けられたフレーム間時間情報を示します。点群シーケンスの時空間構造をキャプチャするために、通常、重心の周りのクロスフレーム時空間ローカル近傍が構築されます。ただし、時空間ローカル近傍の計算コストの高い構築手順は、モデルの並列処理を大幅に制限します。さらに、人間の行動は空間的次元に沿って複雑であり、時間的次元に沿って単純であるため、時空間的局所学習において空間的および時間的情報を等しく扱うことは不合理である。この論文では、時空間ローカルエンコーディングを回避するために、3Dアクション認識のためのSequentialPointNetと呼ばれる強力な並列化されたポイントクラウドシーケンスネットワークを提案します。 SequentialPointNetは、2つのシリアルモジュール、つまりフレーム内外観エンコーディングモジュールとフレーム間モーションエンコーディングモジュールで構成されています。人間の行動の強い空間構造をモデル化するために、各点群フレームはフレーム内外観エンコーディングモジュールで並列処理され、各フレームの特徴ベクトルが出力されて、時間次元に沿った静的な外観変化を特徴付ける特徴ベクトルシーケンスが形成されます。 。人間の行動の弱い時間的変化をモデル化するために、フレーム間モーションエンコーディングモジュールでは、時間的位置エンコーディングと階層ピラミッドプーリング戦略が特徴ベクトルシーケンスに実装されます。さらに、時空間コンテンツをより適切に調査するために、エンドツーエンドの3Dアクション認識を実行する前に、人間の動きの複数のレベルの特徴が集約されます。 3つの公開データセットで実施された広範な実験は、SequentialPointNetが最先端のアプローチよりも優れていることを示しています。
Point cloud sequences of 3D human actions exhibit unordered intra-frame spatial information and ordered interframe temporal information. In order to capture the spatiotemporal structures of the point cloud sequences, cross-frame spatio-temporal local neighborhoods around the centroids are usually constructed. However, the computationally expensive construction procedure of spatio-temporal local neighborhoods severely limits the parallelism of models. Moreover, it is unreasonable to treat spatial and temporal information equally in spatio-temporal local learning, because human actions are complicated along the spatial dimensions and simple along the temporal dimension. In this paper, to avoid spatio-temporal local encoding, we propose a strong parallelized point cloud sequence network referred to as SequentialPointNet for 3D action recognition. SequentialPointNet is composed of two serial modules, i.e., an intra-frame appearance encoding module and an inter-frame motion encoding module. For modeling the strong spatial structures of human actions, each point cloud frame is processed in parallel in the intra-frame appearance encoding module and the feature vector of each frame is output to form a feature vector sequence that characterizes static appearance changes along the temporal dimension. For modeling the weak temporal changes of human actions, in the inter-frame motion encoding module, the temporal position encoding and the hierarchical pyramid pooling strategy are implemented on the feature vector sequence. In addition, in order to better explore spatio-temporal content, multiple level features of human movements are aggregated before performing the end-to-end 3D action recognition. Extensive experiments conducted on three public datasets show that SequentialPointNet outperforms stateof-the-art approaches.
updated: Tue Nov 16 2021 14:13:32 GMT+0000 (UTC)
published: Tue Nov 16 2021 14:13:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト