arXiv reaDer
SPOTR: 人間の動きを予測するための時空間ポーズ トランスフォーマー
SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction
人間の 3D 動作予測は、重要度の高い研究分野であり、コンピューター ビジョンにおける課題でもあります。ロボット工学や自動運転を含む多くのアプリケーションの設計に役立ちます。従来、人間の動きを予測するために自己回帰モデルが使用されてきました。ただし、これらのモデルには高度な計算の必要性と誤差の蓄積があり、リアルタイム アプリケーションに使用することは困難です。この論文では、人間の動きを予測するための非自己回帰モデルを提示します。もっともらしい将来の動きを生成するために、時空間表現を非自己回帰的に学習することに焦点を当てています。最近提案されたトランスフォーマーを活用する新しいアーキテクチャを提案します。人間の動きには、直接接続されていなくても、関節が互いの位置と回転に影響を与える複雑な時空間ダイナミクスが含まれます。提案されたモデルは、畳み込みと自己注意メカニズムの両方を使用して、これらのダイナミクスを抽出します。特殊な空間的および時間的自己注意を使用して、畳み込みによって抽出された機能を拡張することで、モデルはアクティビティとは無関係に時空間的に一貫した予測を並行して生成できます。私たちの貢献は 3 つあります。(i) 人間の動きの予測をシーケンスからシーケンスへの問題として組み立て、ポーズのシーケンスを並行して予測する非自己回帰トランスフォーマーを提案します。 (ii)私たちの方法は活動にとらわれません。 (iii) その単純さにもかかわらず、私たちのアプローチは正確な予測を行うことができ、2 つの公開データセットの最先端技術と比較して、はるかに少ないパラメーターとはるかに高速な推論で、より優れた、または同等の結果を達成できることを示します。
3D human motion prediction is a research area of high significance and a challenge in computer vision. It is useful for the design of many applications including robotics and autonomous driving. Traditionally, autogregressive models have been used to predict human motion. However, these models have high computation needs and error accumulation that make it difficult to use them for realtime applications. In this paper, we present a non-autogressive model for human motion prediction. We focus on learning spatio-temporal representations non-autoregressively for generation of plausible future motions. We propose a novel architecture that leverages the recently proposed Transformers. Human motion involves complex spatio-temporal dynamics with joints affecting the position and rotation of each other even though they are not connected directly. The proposed model extracts these dynamics using both convolutions and the self-attention mechanism. Using specialized spatial and temporal self-attention to augment the features extracted through convolution allows our model to generate spatio-temporally coherent predictions in parallel independent of the activity. Our contributions are threefold: (i) we frame human motion prediction as a sequence-to-sequence problem and propose a non-autoregressive Transformer to forecast a sequence of poses in parallel; (ii) our method is activity agnostic; (iii) we show that despite its simplicity, our approach is able to make accurate predictions, achieving better or comparable results compared to the state-of-the-art on two public datasets, with far fewer parameters and much faster inference.
updated: Sat Mar 11 2023 01:44:29 GMT+0000 (UTC)
published: Sat Mar 11 2023 01:44:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト