ロボットのタスク指向把持(TOG)を教えるために、現実世界の人間活動RGBデータセットを活用することを提案します。入力としてRGB画像を取り、手のポーズと構成、およびオブジェクトのポーズと形状を出力するモデルを開発します。手とオブジェクトのポーズを一緒に推定すると、これらの量を互いに独立して推定する場合と比較して精度が向上するという洞察に従います。トレーニング済みのモデルを前提として、RGBデータセットを処理して、TOGモデルをトレーニングするためのデータを自動的に取得します。このモデルは、入力としてオブジェクトの点群を取り、タスク固有の把握に適した領域を出力します。私たちのアブレーション研究は、手のポーズ情報でオブジェクトポーズ予測子をトレーニングすること(およびその逆)は、この情報なしでトレーニングすることよりも優れていることを示しています。さらに、実際のデータセットに関する私たちの結果は、最先端の技術に対する私たちの方法の適用性と競争力を示しています。ロボットを使った実験は、私たちの方法でロボットが新しいオブジェクトにTOGを実行できることを示しています。
We propose to leverage a real-world, human activity RGB dataset to teach a robot Task-Oriented Grasping (TOG). We develop a model that takes as input an RGB image and outputs a hand pose and configuration as well as an object pose and a shape. We follow the insight that jointly estimating hand and object poses increases accuracy compared to estimating these quantities independently of each other. Given the trained model, we process an RGB dataset to automatically obtain the data to train a TOG model. This model takes as input an object point cloud and outputs a suitable region for task-specific grasping. Our ablation study shows that training an object pose predictor with the hand pose information (and vice versa) is better than training without this information. Furthermore, our results on a real-world dataset show the applicability and competitiveness of our method over state-of-the-art. Experiments with a robot demonstrate that our method can allow a robot to preform TOG on novel objects.