arXiv reaDer
全身関節型の人間とオブジェクトのインタラクション
Full-Body Articulated Human-Object Interaction
3D HOI のきめ細かいキャプチャにより、人間のアクティビティの理解が促進され、動作認識、全体的なシーンの再構成、人間の動作の合成などの下流の視覚タスクが容易になります。その重要性にもかかわらず、既存の作品のほとんどは、人間が少数の身体部分のみを使用して硬いオブジェクトと対話することを前提としており、その範囲が制限されています。この論文では、人体全体が可動関節によって各部分が接続されている多関節物体と相互作用するという f-AHOI の困難な問題に取り組みます。我々は、モーション キャプチャされた大規模な f-AHOI データセットである CHAIRS を紹介します。これは、46 人の参加者と 81 個の多関節で剛体で座れるオブジェクトの間の 16.2 時間の多彩なインタラクションで構成されています。 CHAIRS は、インタラクティブ プロセス全体を通じて人間と多関節オブジェクトの両方の 3D メッシュを提供するだけでなく、現実的で物理的に妥当な全身インタラクションも提供します。オブジェクトの姿勢推定を使用して CHAIRS の値を示します。 HOI の幾何学的関係を学習することで、人間の姿勢推定を活用して、全身インタラクション中の多関節オブジェクトの姿勢と形状の推定に取り組む最初のモデルを考案しました。画像と推定された人間の姿勢が与えられると、モデルはまずオブジェクトの姿勢と形状を再構築し、次に事前に学習したインタラクションに従って再構築を最適化します。両方の評価設定 (たとえば、オブジェクトの形状/構造の知識の有無にかかわらず) の下で、モデルはベースラインを大幅に上回りました。 CHAIRS が、よりきめ細かいインタラクションの理解に向けてコミュニティを促進することを願っています。データ/コードは公開します。
Fine-grained capturing of 3D HOI boosts human activity understanding and facilitates downstream visual tasks, including action recognition, holistic scene reconstruction, and human motion synthesis. Despite its significance, existing works mostly assume that humans interact with rigid objects using only a few body parts, limiting their scope. In this paper, we address the challenging problem of f-AHOI, wherein the whole human bodies interact with articulated objects, whose parts are connected by movable joints. We present CHAIRS, a large-scale motion-captured f-AHOI dataset, consisting of 16.2 hours of versatile interactions between 46 participants and 81 articulated and rigid sittable objects. CHAIRS provides 3D meshes of both humans and articulated objects during the entire interactive process, as well as realistic and physically plausible full-body interactions. We show the value of CHAIRS with object pose estimation. By learning the geometrical relationships in HOI, we devise the very first model that leverage human pose estimation to tackle the estimation of articulated object poses and shapes during whole-body interactions. Given an image and an estimated human pose, our model first reconstructs the pose and shape of the object, then optimizes the reconstruction according to a learned interaction prior. Under both evaluation settings (e.g., with or without the knowledge of objects' geometries/structures), our model significantly outperforms baselines. We hope CHAIRS will promote the community towards finer-grained interaction understanding. We will make the data/code publicly available.
updated: Mon Dec 18 2023 15:33:51 GMT+0000 (UTC)
published: Tue Dec 20 2022 19:50:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト