D3D-HOIを紹介します。これは、人間とオブジェクトの相互作用中の3Dオブジェクトのポーズ、形状、およびパーツの動きのグラウンドトゥルースアノテーションを備えた単眼ビデオのデータセットです。私たちのデータセットは、さまざまな現実世界のシーンとカメラの視点からキャプチャされたいくつかの一般的な関節オブジェクトで構成されています。操作された各オブジェクト(電子レンジなど)は、一致する3Dパラメトリックモデルで表されます。このデータにより、関節オブジェクトの再構成品質を評価し、この困難なタスクのベンチマークを確立できます。特に、推定された3D人間のポーズを活用して、オブジェクトの空間レイアウトとダイナミクスをより正確に推測します。データセットでこのアプローチを評価し、人間とオブジェクトの関係が、現実世界のビデオに挑戦することによる関節オブジェクトの再構築のあいまいさを大幅に減らすことができることを示しています。コードとデータセットはhttps://github.com/facebookresearch/d3d-hoiで入手できます。
We introduce D3D-HOI: a dataset of monocular videos with ground truth annotations of 3D object pose, shape and part motion during human-object interactions. Our dataset consists of several common articulated objects captured from diverse real-world scenes and camera viewpoints. Each manipulated object (e.g., microwave oven) is represented with a matching 3D parametric model. This data allows us to evaluate the reconstruction quality of articulated objects and establish a benchmark for this challenging task. In particular, we leverage the estimated 3D human pose for more accurate inference of the object spatial layout and dynamics. We evaluate this approach on our dataset, demonstrating that human-object relations can significantly reduce the ambiguity of articulated object reconstructions from challenging real-world videos. Code and dataset are available at https://github.com/facebookresearch/d3d-hoi.