私たちは、現実的な方法で環境をナビゲートし、オブジェクトと対話できる仮想人間を 3D 屋内シーンに配置するための新しい方法を紹介します。既存のアプローチは、3D シーンで人間のさまざまな動きをキャプチャする高品質のトレーニング シーケンスに依存しています。ただし、そのようなモーション データは高価であり、入手が困難であり、複雑な屋内環境におけるもっともらしい人間とシーンのインタラクションの全範囲をカバーすることはできません。これらの課題に対処するために、大規模モーション キャプチャ データセット (AMASS) でトレーニングされた強力な生成モーション モデルの潜在変数を予測するポリシー ネットワークを学習するための強化学習ベースのアプローチを提案します。 3D 環境でのナビゲーションのために、新しい衝突回避報酬関数を備えたシーン認識型ポリシー トレーニング スキームを提案します。強力な生成モーション モデルと組み合わせることで、障害物を効果的に回避しながら、3D 屋内シーンをナビゲートする非常に多様な人間のモーションを合成できます。人間とオブジェクトの詳細なインタラクションのために、マーカーベースの身体表現と 3D シーンの符号付き距離フィールド (SDF) 表現を活用することで、インタラクションを意識した報酬関数を慎重に精選します。多くの重要なトレーニング設計スキームを使用することで、私たちの方法は、オブジェクトの形状、向き、開始状態が異なる配布外のテスト シナリオであっても、現実的で多様な人間とオブジェクトのインタラクション (椅子に座ってから立ち上がるなど) を合成できます。体の位置、ポーズ。実験結果は、私たちのアプローチが、動きの自然さと多様性の両方の点で最先端のヒューマンシーンインタラクション合成フレームワークよりも優れていることを示しています。ビデオ結果はプロジェクト ページ https://zkf1997.github.io/DIMOShttps://zkf1997.github.io/DIMOS でご覧いただけます。
We present a novel method for populating 3D indoor scenes with virtual humans that can navigate the environment and interact with objects in a realistic manner. Existing approaches rely on high-quality training sequences that capture a diverse range of human motions in 3D scenes. However, such motion data is costly, difficult to obtain and can never cover the full range of plausible human-scene interactions in complex indoor environments. To address these challenges, we propose a reinforcement learning-based approach to learn policy networks that predict latent variables of a powerful generative motion model that is trained on a large-scale motion capture dataset (AMASS). For navigating in a 3D environment, we propose a scene-aware policy training scheme with a novel collision avoidance reward function. Combined with the powerful generative motion model, we can synthesize highly diverse human motions navigating 3D indoor scenes, meanwhile effectively avoiding obstacles. For detailed human-object interactions, we carefully curate interaction-aware reward functions by leveraging a marker-based body representation and the signed distance field (SDF) representation of the 3D scene. With a number of important training design schemes, our method can synthesize realistic and diverse human-object interactions (e.g.,~sitting on a chair and then getting up) even for out-of-distribution test scenarios with different object shapes, orientations, starting body positions, and poses. Experimental results demonstrate that our approach outperforms state-of-the-art human-scene interaction synthesis frameworks in terms of both motion naturalness and diversity. Video results are available on the project page: https://zkf1997.github.io/DIMOShttps://zkf1997.github.io/DIMOS.