事前のデータを使用して、誤った3D手とオブジェクトの相互作用シーケンスを改良する方法であるTOCHを紹介します。既存のハンドトラッカー、特に非常に少数のカメラに依存するものは、多くの場合、手とオブジェクトの交差または接触の欠落により、視覚的に非現実的な結果を生成します。このようなエラーを修正するには、相互作用の時間的側面について推論する必要がありますが、これまでのほとんどの作業は、静的な把握と接触に焦点を当てています。私たちの方法の中核は、TOCHフィールドです。これは、相互作用中の手とオブジェクト間の対応をモデル化するための新しい時空間表現です。 TOCHフィールドは、オブジェクトに対する手の位置をエンコードする、ポイントごとのオブジェクト中心の表現です。この斬新な表現を活用して、一時的なノイズ除去オートエンコーダを使用して、もっともらしいTOCHフィールドの潜在的な多様性を学習します。実験は、TOCHが、静的な把持と接触に限定されている最先端の3D手とオブジェクトの相互作用モデルよりも優れていることを示しています。さらに重要なことに、私たちの方法は、接触の前後でもスムーズな相互作用を生み出します。単一のトレーニング済みTOCHモデルを使用して、既製のRGB / RGB-Dハンドオブジェクト再構成方法からの誤ったシーケンスを修正し、オブジェクト間で把握を転送するためのその有用性を定量的および定性的に示します。
We present TOCH, a method for refining incorrect 3D hand-object interaction sequences using a data prior. Existing hand trackers, especially those that rely on very few cameras, often produce visually unrealistic results with hand-object intersection or missing contacts. Although correcting such errors requires reasoning about temporal aspects of interaction, most previous works focus on static grasps and contacts. The core of our method are TOCH fields, a novel spatio-temporal representation for modeling correspondences between hands and objects during interaction. TOCH fields are a point-wise, object-centric representation, which encode the hand position relative to the object. Leveraging this novel representation, we learn a latent manifold of plausible TOCH fields with a temporal denoising auto-encoder. Experiments demonstrate that TOCH outperforms state-of-the-art 3D hand-object interaction models, which are limited to static grasps and contacts. More importantly, our method produces smooth interactions even before and after contact. Using a single trained TOCH model, we quantitatively and qualitatively demonstrate its usefulness for correcting erroneous sequences from off-the-shelf RGB/RGB-D hand-object reconstruction methods and transferring grasps across objects.