シーンフローは、3Dポイントクラウドのモーションフィールドをキャプチャするための強力なツールです。ただし、フローベースのモデルを動的な点群分類に直接適用することは困難です。これは、構造化されていない点により、点ごとの対応を効率的かつ効果的に追跡することが困難または不可能になるためです。対応を明示的に追跡せずに3Dモーションをキャプチャするために、STサーフェスの運動学的概念を特徴空間に一般化することにより、運動学に着想を得たニューラルネットワーク(Kinet)を提案します。特徴空間でSTサーフェスの通常のソルバーを展開することにより、Kinetは特徴レベルのダイナミクスを暗黙的にエンコードし、静的な点群処理に成熟したバックボーンを使用することで利点を得ることができます。ネットワーク構造のわずかな変更と低いコンピューティングオーバーヘッドにより、特定の静的モデルを使用してフレームワークを共同でトレーニングおよび展開するのは簡単です。 NvGesture、SHREC'17、MSRAction-3D、およびNTU-RGBDでの実験は、パフォーマンスにおけるその有効性、パラメーターの数と計算の複雑さの両方における効率、およびさまざまな静的バックボーンに対するその汎用性を示しています。注目すべきことに、Kinetは、わずか3.20Mのパラメーターと10.35GのFLOPSでMSRAction-3Dで93.27%の精度を達成しています。
Scene flow is a powerful tool for capturing the motion field of 3D point clouds. However, it is difficult to directly apply flow-based models to dynamic point cloud classification since the unstructured points make it hard or even impossible to efficiently and effectively trace point-wise correspondences. To capture 3D motions without explicitly tracking correspondences, we propose a kinematics-inspired neural network (Kinet) by generalizing the kinematic concept of ST-surfaces to the feature space. By unrolling the normal solver of ST-surfaces in the feature space, Kinet implicitly encodes feature-level dynamics and gains advantages from the use of mature backbones for static point cloud processing. With only minor changes in network structures and low computing overhead, it is painless to jointly train and deploy our framework with a given static model. Experiments on NvGesture, SHREC'17, MSRAction-3D, and NTU-RGBD demonstrate its efficacy in performance, efficiency in both the number of parameters and computational complexity, as well as its versatility to various static backbones. Noticeably, Kinet achieves the accuracy of 93.27% on MSRAction-3D with only 3.20M parameters and 10.35G FLOPS.