既知のカテゴリの新しいオブジェクトを保持している手を示すRGB画像から、3Dでの手とオブジェクトの相互作用をモデル化するシステムを開発します。 HOPS-Netと呼ばれるハンドヘルドオブジェクトの姿勢と形状の推定のための畳み込みニューラルネットワーク(CNN)を設計し、事前の作業を利用して手の姿勢と構成を推定します。手の情報がオブジェクトのポーズと形状のトレーニングと推論の両方に手を組み込むことで、手のポーズに関する情報がオブジェクトのポーズと形状の推定を容易にするという洞察を活用します。ネットワークは、人間の手と相互作用するオブジェクトの大規模な合成データセットでトレーニングされます。実際の画像と合成画像との間のギャップを埋めるために、合成レンダリングでリアルにテクスチャ化されたオブジェクトを生成する画像から画像への変換モデル(Augmented CycleGAN)を採用しています。これにより、HOPS-Netをトレーニングするための注釈付きデータを生成するスケーラブルな方法が提供されます。私たちの定量的実験は、ノイズの多い手のパラメータでさえ、オブジェクトのポーズと形状の推定に非常に役立つことを示しています。定性的実験は、「野生」の手で保持された物体の姿勢と形状の推定結果を示しています。
We develop a system for modeling hand-object interactions in 3D from RGB images that show a hand which is holding a novel object from a known category. We design a Convolutional Neural Network (CNN) for Hand-held Object Pose and Shape estimation called HOPS-Net and utilize prior work to estimate the hand pose and configuration. We leverage the insight that information about the hand facilitates object pose and shape estimation by incorporating the hand into both training and inference of the object pose and shape as well as the refinement of the estimated pose. The network is trained on a large synthetic dataset of objects in interaction with a human hand. To bridge the gap between real and synthetic images, we employ an image-to-image translation model (Augmented CycleGAN) that generates realistically textured objects given a synthetic rendering. This provides a scalable way of generating annotated data for training HOPS-Net. Our quantitative experiments show that even noisy hand parameters significantly help object pose and shape estimation. The qualitative experiments show results of pose and shape estimation of objects held by a hand "in the wild".