arXiv reaDer
人間とシーンの相互作用を学習して3Dシーンにデータを入力する
Populating 3D Scenes by Learning Human-Scene Interaction
人間は3D空間内に住み、常にそれと対話してタスクを実行します。このような相互作用には、意味的に意味のある表面間の物理的接触が含まれます。私たちの目標は、人間がシーンとどのように相互作用するかを学び、これを活用して仮想キャラクターが同じことを行えるようにすることです。そのために、近位関係をエンコードする新しいHuman-Scene Interaction(HSI)モデルを紹介します。これは、「Pose with prOximitieSandcontActs」のPOSAと呼ばれます。インタラクションの表現は身体中心であり、新しいシーンに一般化することができます。具体的には、POSAはSMPL-Xパラメトリック人体モデルを拡張して、メッシュ頂点ごとに、(a)シーンサーフェスとの接触確率、および(b)対応するセマンティックシーンラベルをエンコードします。 SMPL-X頂点を条件とするVAEを使用してPOSAを学習し、3Dシーンと対話する人々のSMPL-XメッシュとPROX-Eデータセットからの対応するシーンセマンティクスを含むPROXデータセットでトレーニングします。 2つのアプリケーションでPOSAの価値を示します。まず、シーン内の人物の3Dスキャンを自動的に配置します。スキャンに適合したSMPL-Xモデルをプロキシとして使用し、3Dでの配置の可能性が最も高いものを見つけます。 POSAは、そのポーズの可能性のある接触関係に一致するシーン内の「アフォーダンス」を検索するための効果的な表現を提供します。私たちは、このタスクの最新技術を大幅に改善することを示す知覚研究を実行します。次に、POSAで学習した身体とシーンの相互作用の表現が、3Dシーンと一致する単眼の人間の姿勢推定をサポートし、最先端技術を向上させていることを示します。私たちのモデルとコードは、https://posa.is.tue.mpg.deで調査目的で入手できます。
Humans live within a 3D space and constantly interact with it to perform tasks. Such interactions involve physical contact between surfaces that is semantically meaningful. Our goal is to learn how humans interact with scenes and leverage this to enable virtual characters to do the same. To that end, we introduce a novel Human-Scene Interaction (HSI) model that encodes proximal relationships, called POSA for "Pose with prOximitieS and contActs". The representation of interaction is body-centric, which enables it to generalize to new scenes. Specifically, POSA augments the SMPL-X parametric human body model such that, for every mesh vertex, it encodes (a) the contact probability with the scene surface and (b) the corresponding semantic scene label. We learn POSA with a VAE conditioned on the SMPL-X vertices, and train on the PROX dataset, which contains SMPL-X meshes of people interacting with 3D scenes, and the corresponding scene semantics from the PROX-E dataset. We demonstrate the value of POSA with two applications. First, we automatically place 3D scans of people in scenes. We use a SMPL-X model fit to the scan as a proxy and then find its most likely placement in 3D. POSA provides an effective representation to search for "affordances" in the scene that match the likely contact relationships for that pose. We perform a perceptual study that shows significant improvement over the state of the art on this task. Second, we show that POSA's learned representation of body-scene interaction supports monocular human pose estimation that is consistent with a 3D scene, improving on the state of the art. Our model and code are available for research purposes at https://posa.is.tue.mpg.de.
updated: Mon Apr 05 2021 15:26:07 GMT+0000 (UTC)
published: Mon Dec 21 2020 18:57:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト