コンピュータビジョンデータセットを作成するには、慎重な計画と多くの時間と労力が必要です。ロボット工学の研究では、YCBオブジェクトセットなどの標準化されたオブジェクトを、オブジェクトトラッキング、ポーズ推定、把握、操作などのタスクに使用する必要があります。これらのオブジェクトにはデータセットと事前に学習したメソッドがあります。学習ベースのコンピュータービジョン手法は、既存のデータセットでサポートされているシナリオでのみ使用できるため、これにより、調査の影響が制限されます。この作業では、データ収集、ラベリング、モデル学習、評価からのプロセス全体を網羅する、完全なオブジェクトキーポイント追跡ツールキットを紹介します。標準のロボットアームに手首に取り付けられたカメラを使用して、データセットを収集してラベル付けする半自動の方法を紹介します。ツールキットとメソッドを使用すると、機能する3Dオブジェクトキーポイント検出器を取得し、わずか2時間のアクティブな時間でデータ収集、注釈付け、学習の全プロセスを実行できます。
Creating computer vision datasets requires careful planning and lots of time and effort. In robotics research, we often have to use standardized objects, such as the YCB object set, for tasks such as object tracking, pose estimation, grasping and manipulation, as there are datasets and pre-learned methods available for these objects. This limits the impact of our research since learning-based computer vision methods can only be used in scenarios that are supported by existing datasets. In this work, we present a full object keypoint tracking toolkit, encompassing the entire process from data collection, labeling, model learning and evaluation. We present a semi-automatic way of collecting and labeling datasets using a wrist mounted camera on a standard robotic arm. Using our toolkit and method, we are able to obtain a working 3D object keypoint detector and go through the whole process of data collection, annotation and learning in just a couple hours of active time.