オブジェクトのアフォーダンスと人間のポーズの間の密接な絡み合いは、とりわけ行動科学、認知心理学、コンピューター ビジョン コミュニティにとって大きな関心を集めています。近年、後者はいくつかのオブジェクト中心のアプローチを開発しました。アイテムから開始し、人間のポーズとダイナミクスを現実的な方法で合成する学習パイプラインで、幾何学的および機能的な期待の両方を満たします。しかし、逆遠近法についてはあまり研究されていません。人間のインタラクションだけから 3D オブジェクトとそのポーズを推測できるでしょうか?私たちの調査はこの方向に従っており、ユーザーが有形の対応物を関与させずに機能を模倣しているだけ(双眼鏡で見るなど)場合でも、一般的な 3D 人間点群で未観察のオブジェクトをポップアップさせるのに十分であることが示されています。タスクのために取得された合成データとシーケンスを使用して、手法を定性的および定量的に検証し、XR/VR への適用性を示します。コードは https://github.com/ptrvilya/object-popup で入手できます。
The intimate entanglement between objects affordances and human poses is of large interest, among others, for behavioural sciences, cognitive psychology, and Computer Vision communities. In recent years, the latter has developed several object-centric approaches: starting from items, learning pipelines synthesizing human poses and dynamics in a realistic way, satisfying both geometrical and functional expectations. However, the inverse perspective is significantly less explored: Can we infer 3D objects and their poses from human interactions alone? Our investigation follows this direction, showing that a generic 3D human point cloud is enough to pop up an unobserved object, even when the user is just imitating a functionality (e.g., looking through a binocular) without involving a tangible counterpart. We validate our method qualitatively and quantitatively, with synthetic data and sequences acquired for the task, showing applicability for XR/VR. The code is available at https://github.com/ptrvilya/object-popup.