カテゴリレベルの人間とオブジェクトの相互作用の研究を促進するために、豊富な注釈を備えた大規模な4D自己中心性データセットであるHOI4Dを紹介します。 HOI4Dは、610の異なる屋内部屋の20のカテゴリから1000の異なるオブジェクトインスタンスと対話する9人の参加者によって収集された5000シーケンスを超える3MRGB-Dエゴセントリックビデオフレームで構成されています。パノラマセグメンテーション、モーションセグメンテーション、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、およびハンドアクションのフレームごとの注釈も、再構築されたオブジェクトメッシュとシーンポイントクラウドとともに提供されています。 HOI4Dを使用して、4D動的ポイントクラウドシーケンスのセマンティックセグメンテーション、カテゴリレベルのオブジェクトポーズトラッキング、多様なインタラクションターゲットを使用した自己中心的なアクションセグメンテーションなど、4Dビジュアル信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立します。詳細な分析は、HOI4Dが既存の方法に大きな課題をもたらし、優れた研究機会を生み出すことを示しています。
We present HOI4D, a large-scale 4D egocentric dataset with rich annotations, to catalyze the research of category-level human-object interaction. HOI4D consists of 3M RGB-D egocentric video frames over 5000 sequences collected by 9 participants interacting with 1000 different object instances from 20 categories over 610 different indoor rooms. Frame-wise annotations for panoptic segmentation, motion segmentation, 3D hand pose, category-level object pose and hand action have also been provided, together with reconstructed object meshes and scene point clouds. With HOI4D, we establish three benchmarking tasks to promote category-level HOI from 4D visual signals including semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and egocentric action segmentation with diverse interaction targets. In-depth analysis shows HOI4D poses great challenges to existing methods and produces great research opportunities.