人間の動きの予測は、コンピュータービジョンとロボット工学においてますます興味深いトピックです。この論文では、軌道空間における将来のポーズを予測するために、新しい2D CNNベースのネットワークTrajectoryNetを提案します。ほとんどの既存の方法と比較して、私たちのモデルは、前のポーズシーケンスの時空間的特徴、ローカル-グローバル空間的特徴、グローバルな時間的共起の特徴を組み合わせたモーションダイナミクスのモデリングに焦点を当てています。具体的には、結合された時空間的特徴は、自然な人間の運動シーケンスに隠された空間的および時間的構造情報を記述します。これは、畳み込みフィルタで入力ポーズシーケンスの空間および時間次元をカバーすることでマイニングできます。人体のさまざまな関節のさまざまな相関関係(たとえば、1つの手足の関節間の強い相関関係、さまざまな手足の関節間の弱い相関関係)をエンコードするローカルグローバルな空間的特徴は、受容フィールドをレイヤーごとに残差接続によって拡大することによって階層的にキャプチャされます提案されている畳み込みネットワークの下位層からより深い層まで。また、グローバルな時間的共起機能は、複雑なモーションシーケンス内の異なるサブシーケンスが同時に現れる共起関係を表します。これは、入力テンソルの深さ次元として時間情報を再編成することにより、提案されたTrajectoryNetで自動的に取得できます。最後に、キャプチャされたモーションダイナミクス機能に基づいて、将来のポーズが近似されます。広範な実験により、本手法が3つの困難なベンチマーク(Human3.6M、G3D、およびFNTUなど)で最先端のパフォーマンスを達成することが示されており、提案手法の有効性が実証されています。論文が受理されると、コードが利用可能になります。
Human motion prediction is an increasingly interesting topic in computer vision and robotics. In this paper, we propose a new 2D CNN based network, TrajectoryNet, to predict future poses in the trajectory space. Compared with most existing methods, our model focuses on modeling the motion dynamics with coupled spatio-temporal features, local-global spatial features and global temporal co-occurrence features of the previous pose sequence. Specifically, the coupled spatio-temporal features describe the spatial and temporal structure information hidden in the natural human motion sequence, which can be mined by covering the space and time dimensions of the input pose sequence with the convolutional filters. The local-global spatial features that encode different correlations of different joints of the human body (e.g. strong correlations between joints of one limb, weak correlations between joints of different limbs) are captured hierarchically by enlarging the receptive field layer by layer and residual connections from the lower layers to the deeper layers in our proposed convolutional network. And the global temporal co-occurrence features represent the co-occurrence relationship that different subsequences in a complex motion sequence are appeared simultaneously, which can be obtained automatically with our proposed TrajectoryNet by reorganizing the temporal information as the depth dimension of the input tensor. Finally, future poses are approximated based on the captured motion dynamics features. Extensive experiments show that our method achieves state-of-the-art performance on three challenging benchmarks (e.g. Human3.6M, G3D, and FNTU), which demonstrates the effectiveness of our proposed method. The code will be available if the paper is accepted.