3D 人間の姿勢と形状 (HPS) の推定は急速に進歩していますが、現在の方法では、多くのアプリケーションにとって重要であるグローバル座標で動く人間を確実に推定することはまだできません。これは、カメラも動いている場合に特に困難であり、人間とカメラの動きが絡み合います。これらの問題に対処するために、シーン内の人物に関するエンドツーエンドの推論を可能にする新しい 5D 表現 (空間、時間、アイデンティティ) を採用しました。 TRACE と呼ばれる私たちの方法では、いくつかの新しいアーキテクチャ コンポーネントが導入されています。最も重要なことは、2 つの新しい「マップ」を使用して、カメラと世界の座標における時間の経過に伴う人々の 3D 軌跡を推論することです。追加のメモリユニットにより、長いオクルージョン中であっても人の持続的な追跡が可能になります。 TRACE は、動的カメラからグローバル座標で 3D 人間を共同で復元および追跡する初の 1 段階の方法です。 TRACE は、エンドツーエンドでトレーニングし、完全な画像情報を使用することにより、追跡および HPS ベンチマークで最先端のパフォーマンスを実現します。コードとデータセットは研究目的で公開されています。
Although the estimation of 3D human pose and shape (HPS) is rapidly progressing, current methods still cannot reliably estimate moving humans in global coordinates, which is critical for many applications. This is particularly challenging when the camera is also moving, entangling human and camera motion. To address these issues, we adopt a novel 5D representation (space, time, and identity) that enables end-to-end reasoning about people in scenes. Our method, called TRACE, introduces several novel architectural components. Most importantly, it uses two new "maps" to reason about the 3D trajectory of people over time in camera, and world, coordinates. An additional memory unit enables persistent tracking of people even during long occlusions. TRACE is the first one-stage method to jointly recover and track 3D humans in global coordinates from dynamic cameras. By training it end-to-end, and using full image information, TRACE achieves state-of-the-art performance on tracking and HPS benchmarks. The code and dataset are released for research purposes.