人間の動きの予測は、多くのコンピュータービジョンアプリケーションドメインでやりがいのある重要なタスクです。既存の作業は、人間の骨格の空間構造を暗黙的にモデル化するだけです。この論文では、ジョイントの依存関係を明示的にモデル化する構造化された予測レイヤーを使用して、予測を個々のジョイントに分解する新しいアプローチを提案します。これは、人体の運動連鎖と同様に接続された小さなニューラルネットワークの階層と、損失関数の共同分解によって実装されます。提案されたレイヤーは、基礎となるネットワークに依存せず、モーションモデリングの既存のアーキテクチャで使用できます。通常、事前の作業ではH3.6Mデータセットを活用します。いくつかの最先端の技術は、最近リリースされたH3.6Mのサイズの14倍のデータセットであるAMASSでトレーニングおよびテストされた場合、うまく機能しないことを示しています。私たちの実験は、提案されたレイヤーが、ベースネットワーク、ジョイント角度表現、予測期間に関係なく、モーション予測のパフォーマンスを向上させることを示しています。さらに、レイヤーがモーション予測を定性的に改善することも示しています。コードとモデルをhttps://ait.ethz.ch/projects/2019/splで公開します。
Human motion prediction is a challenging and important task in many computer vision application domains. Existing work only implicitly models the spatial structure of the human skeleton. In this paper, we propose a novel approach that decomposes the prediction into individual joints by means of a structured prediction layer that explicitly models the joint dependencies. This is implemented via a hierarchy of small-sized neural networks connected analogously to the kinematic chains in the human body as well as a joint-wise decomposition in the loss function. The proposed layer is agnostic to the underlying network and can be used with existing architectures for motion modelling. Prior work typically leverages the H3.6M dataset. We show that some state-of-the-art techniques do not perform well when trained and tested on AMASS, a recently released dataset 14 times the size of H3.6M. Our experiments indicate that the proposed layer increases the performance of motion forecasting irrespective of the base network, joint-angle representation, and prediction horizon. We furthermore show that the layer also improves motion predictions qualitatively. We make code and models publicly available at https://ait.ethz.ch/projects/2019/spl.