手と多関節オブジェクトの姿勢推定のための手とオブジェクトの相互作用の優先順位を学習するための新しいデータセットと新しいアプローチを提案します。最初に視覚的なテレオペレーションを使用してデータセットを収集します。このテレオペレーションでは、人間のオペレーターが物理シミュレーター内で直接遊んで、多関節オブジェクトを操作できます。データを記録し、シミュレーターからオブジェクトのポーズと連絡先情報に関する無料で正確な注釈を取得します。私たちのシステムでは、人間の手の動きを記録するために iPhone だけが必要です。これは簡単にスケールアップでき、データと注釈収集のコストを大幅に削減できます。このデータを使用して、オブジェクトのパーツがどのように配置されているかの分布をキャプチャする弁別器 (GAN 内) を含む 3D 相互作用の優先順位と、関節のあるオブジェクトの接触領域を生成し、手のポーズの推定をガイドする拡散モデルを学習します。このような構造的事前分布と接触事前分布は、ドメイン ギャップがほとんどない実世界のデータに簡単に転送できます。私たちのデータと学習済みの事前確率を使用することにより、私たちの方法は、既存の最先端の方法よりも、関節手と多関節オブジェクトの姿勢推定のパフォーマンスを大幅に向上させます。プロジェクトは https://zehaozhu.github.io/ContactArt/ で入手できます。
We propose a new dataset and a novel approach to learning hand-object interaction priors for hand and articulated object pose estimation. We first collect a dataset using visual teleoperation, where the human operator can directly play within a physical simulator to manipulate the articulated objects. We record the data and obtain free and accurate annotations on object poses and contact information from the simulator. Our system only requires an iPhone to record human hand motion, which can be easily scaled up and largely lower the costs of data and annotation collection. With this data, we learn 3D interaction priors including a discriminator (in a GAN) capturing the distribution of how object parts are arranged, and a diffusion model which generates the contact regions on articulated objects, guiding the hand pose estimation. Such structural and contact priors can easily transfer to real-world data with barely any domain gap. By using our data and learned priors, our method significantly improves the performance on joint hand and articulated object poses estimation over the existing state-of-the-art methods. The project is available at https://zehaozhu.github.io/ContactArt/ .