キーポイント検出は、モーションキャプチャやポーズ推定などの多くのロボットアプリケーションにとって不可欠な構成要素です。歴史的に、キーポイントは、チェッカーボードや基準などの独自に設計されたマーカーを使用して検出されます。最近では、マーカーなしの方法でユーザー定義のキーポイントを検出する機能があるため、ディープラーニング手法が検討されています。ただし、手動で選択したキーポイントが異なると、検出とローカリゼーションに関してパフォーマンスが不均一になる可能性があります。この例は、DNN検出器が対応問題を正しく解決できない対称ロボットツールに見られます。この作業では、これらの課題を克服するキーポイントの場所を定義するための新しい自律的な方法を提案します。このアプローチには、ロバストな視覚的検出と位置特定のためのロボットマニピュレータ上のキーポイントの最適なセットを見つけることが含まれます。ロボットシミュレーターを媒体として使用し、私たちのアルゴリズムはDNNトレーニングに合成データを利用し、提案されたアルゴリズムは反復アプローチを通じてキーポイントの選択を最適化するために使用されます。結果は、最適化されたキーポイントを使用すると、DNNの検出パフォーマンスが大幅に向上したことを示しています。さらに、ドメインランダム化を使用してシミュレータと物理世界の間の現実のギャップを埋めることにより、実際のロボットアプリケーション用に最適化されたキーポイントを使用します。物理世界の実験は、提案された方法が、カメラからロボットへのキャリブレーション、ロボットツールの追跡、エンドエフェクタの姿勢推定など、視覚的なフィードバックを必要とする幅広いロボットアプリケーションにどのように適用できるかを示しています。
Keypoint detection is an essential building block for many robotic applications like motion capture and pose estimation. Historically, keypoints are detected using uniquely engineered markers such as checkerboards or fiducials. More recently, deep learning methods have been explored as they have the ability to detect user-defined keypoints in a marker-less manner. However, different manually selected keypoints can have uneven performance when it comes to detection and localization. An example of this can be found on symmetric robotic tools where DNN detectors cannot solve the correspondence problem correctly. In this work, we propose a new and autonomous way to define the keypoint locations that overcomes these challenges. The approach involves finding the optimal set of keypoints on robotic manipulators for robust visual detection and localization. Using a robotic simulator as a medium, our algorithm utilizes synthetic data for DNN training, and the proposed algorithm is used to optimize the selection of keypoints through an iterative approach. The results show that when using the optimized keypoints, the detection performance of the DNNs improved significantly. We further use the optimized keypoints for real robotic applications by using domain randomization to bridge the reality gap between the simulator and the physical world. The physical world experiments show how the proposed method can be applied to the wide-breadth of robotic applications that require visual feedback, such as camera-to-robot calibration, robotic tool tracking, and end-effector pose estimation.