頭部に取り付けられたカメラを使用した3D自我ポーズ推定のタスクにオブジェクトの相互作用と人体のダイナミクスを組み込む方法を提案します。人体の運動学モデルを使用して人間の動きの全範囲を表し、体のダイナミクスモデルを使用して物理シミュレーター内のオブジェクトと相互作用します。オブジェクトモデリング、キネマティクスモデリング、ダイナミクスモデリングを強化学習(RL)フレームワークに統合することで、オブジェクトを意識した3Dエゴポーズ推定が可能になります。 3Dシーンのコンテキストを組み込み、ポーズ推定の品質を向上させるために、状態とアクションスペースの設計を通じて、いくつかの表現の革新を考案します。また、ドリフトを修正し、推定された人間と物体の相互作用を改善するための微調整ステップを構築します。これは、自己中心的なビデオから、オブジェクト(椅子、箱、障害物など)との物理的に有効な3D全身相互作用シーケンスを推定する最初の作業です。制御された設定と実際の設定の両方での実験は、私たちの方法が物理法則と一致するオブジェクト条件付き3Dエゴポーズシーケンスを正常に抽出できることを示しています。
We propose a method for incorporating object interaction and human body dynamics into the task of 3D ego-pose estimation using a head-mounted camera. We use a kinematics model of the human body to represent the entire range of human motion, and a dynamics model of the body to interact with objects inside a physics simulator. By bringing together object modeling, kinematics modeling, and dynamics modeling in a reinforcement learning (RL) framework, we enable object-aware 3D ego-pose estimation. We devise several representational innovations through the design of the state and action space to incorporate 3D scene context and improve pose estimation quality. We also construct a fine-tuning step to correct the drift and refine the estimated human-object interaction. This is the first work to estimate a physically valid 3D full-body interaction sequence with objects (e.g., chairs, boxes, obstacles) from egocentric videos. Experiments with both controlled and in-the-wild settings show that our method can successfully extract an object-conditioned 3D ego-pose sequence that is consistent with the laws of physics.