arXiv reaDer
ポーズトランスフォーマー(POTR):非自己回帰トランスフォーマーを使用した人間の動きの予測
Pose Transformers (POTR): Human Motion Prediction with Non-Autoregressive Transformers
非自己回帰の人間の動きの予測にTransformerアーキテクチャを活用することを提案します。私たちのアプローチは、最先端のRNNベースのアプローチなどの以前の予測を条件付けるのではなく、クエリシーケンスから要素を並列にデコードします。このようにして、私たちのアプローチは計算集約度が低くなり、シーケンス内の長期要素へのエラーの蓄積を回避できる可能性があります。その文脈では、私たちの貢献は4つあります。(i)人間の動きの予測をシーケンス間の問題として組み立て、ポーズのシーケンスを並列に推測するための非自己回帰トランスフォーマーを提案します。 (ii)入力シーケンスの要素を使用して事前に生成されたクエリシーケンスから3Dポーズのシーケンスをデコードすることを提案します。(iii)アクティビティを識別できることを期待して、エンコーダメモリからスケルトンベースのアクティビティ分類を実行することを提案します。予測を改善する;(iv)その単純さにもかかわらず、私たちのアプローチは2つの公開データセットで競争力のある結果を達成することを示しますが、驚くべきことに、長期予測よりも短期予測の方が多くなります。
We propose to leverage Transformer architectures for non-autoregressive human motion prediction. Our approach decodes elements in parallel from a query sequence, instead of conditioning on previous predictions such as instate-of-the-art RNN-based approaches. In such a way our approach is less computational intensive and potentially avoids error accumulation to long term elements in the sequence. In that context, our contributions are fourfold: (i) we frame human motion prediction as a sequence-to-sequence problem and propose a non-autoregressive Transformer to infer the sequences of poses in parallel; (ii) we propose to decode sequences of 3D poses from a query sequence generated in advance with elements from the input sequence;(iii) we propose to perform skeleton-based activity classification from the encoder memory, in the hope that identifying the activity can improve predictions;(iv) we show that despite its simplicity, our approach achieves competitive results in two public datasets, although surprisingly more for short term predictions rather than for long term ones.
updated: Wed Sep 15 2021 18:55:15 GMT+0000 (UTC)
published: Wed Sep 15 2021 18:55:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト