arXiv reaDer
HOnnotate:手とオブジェクトのポーズの3Dアノテーションの方法
HOnnotate: A method for 3D Annotation of Hand and Object Poses
 手とオブジェクトの両方の3Dポーズでオブジェクトを操作する手の画像に注釈を付ける方法と、この方法を使用して作成されたデータセットを提案します。私たちの動機は、主に手とオブジェクト間の相互オクルージョンのために、3Dポーズの推定が困難であるため、この問題に対する注釈付きの実画像が現在欠如していることです。この課題に取り組むために、1つまたは複数のRGB-Dカメラでシーケンスをキャプチャし、3Dの手とオブジェクトのポーズをすべてのフレームで同時に最適化します。この方法では、相互に大きなオクルージョンがあるにもかかわらず、ポーズの正確な推定値で各フレームに自動的に注釈を付けることができます。この方法で、手とオブジェクトの両方に3Dアノテーションが付いたカラー画像の最初のマーカーレスデータセットであるHO-3Dを作成しました。このデータセットは現在、77,558フレーム、68シーケンス、10人、10個のオブジェクトで構成されています。データセットを使用して、単一のRGB画像ベースのメソッドを開発し、重度のオクルージョンの下でオブジェクトと相互作用するときの手のポーズを予測し、データセットにないオブジェクトに一般化することを示します。
We propose a method for annotating images of a hand manipulating an object with the 3D poses of both the hand and the object, together with a dataset created using this method. Our motivation is the current lack of annotated real images for this problem, as estimating the 3D poses is challenging, mostly because of the mutual occlusions between the hand and the object. To tackle this challenge, we capture sequences with one or several RGB-D cameras and jointly optimize the 3D hand and object poses over all the frames simultaneously. This method allows us to automatically annotate each frame with accurate estimates of the poses, despite large mutual occlusions. With this method, we created HO-3D, the first markerless dataset of color images with 3D annotations for both the hand and object. This dataset is currently made of 77,558 frames, 68 sequences, 10 persons, and 10 objects. Using our dataset, we develop a single RGB image-based method to predict the hand pose when interacting with objects under severe occlusions and show it generalizes to objects not seen in the dataset.
updated: Sat May 30 2020 20:37:29 GMT+0000 (UTC)
published: Tue Jul 02 2019 16:39:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト