複数人の動作予測は、動作が個人の過去の動作と他の人々との相互作用の両方に依存するため、困難な問題です。トランスフォーマーベースの手法は、このタスクに関して有望な結果を示していますが、正確な相互作用モデリングに重要な、スケルトン構造やペアごとの距離など、ジョイント間の明示的な関係表現が欠けています。この論文では、関係情報を利用してインタラクションモデリングを強化し、将来の動き予測を改善するジョイントリレーショントランスフォーマーを提案します。私たちの関係情報には、相対距離と個人内/個人間の物理的制約が含まれます。リレーション情報とジョイント情報を融合するために、両方の機能を更新するためにリレーションを意識した新しいジョイントリレーション融合層を設計します。さらに、将来の距離を予測することで関係情報を監視します。実験の結果、私たちの方法は 3DPW-SoMoF/RC で 900ms VIM の 13.4% の改善と、CMU-Mpcap/MuPoTS-3D データセットでの 3 秒 MPJPE の 17.8%/12.0% の改善を達成することを示しています。
Multi-person motion prediction is a challenging problem due to the dependency of motion on both individual past movements and interactions with other people. Transformer-based methods have shown promising results on this task, but they miss the explicit relation representation between joints, such as skeleton structure and pairwise distance, which is crucial for accurate interaction modeling. In this paper, we propose the Joint-Relation Transformer, which utilizes relation information to enhance interaction modeling and improve future motion prediction. Our relation information contains the relative distance and the intra-/inter-person physical constraints. To fuse relation and joint information, we design a novel joint-relation fusion layer with relation-aware attention to update both features. Additionally, we supervise the relation information by forecasting future distance. Experiments show that our method achieves a 13.4% improvement of 900ms VIM on 3DPW-SoMoF/RC and 17.8%/12.0% improvement of 3s MPJPE on CMU-Mpcap/MuPoTS-3D dataset.