arXiv reaDer
自己教師あり Sim-to-Real 転送によるマーカーレス カメラからロボットへの姿勢推定
Markerless Camera-to-Robot Pose Estimation via Self-supervised Sim-to-Real Transfer
カメラからロボットへのポーズを解決することは、ビジョンベースのロボット制御の基本的な要件であり、正確にするためにかなりの労力と注意が必要なプロセスです。従来のアプローチでは、マーカーを介してロボットを変更する必要があり、その後のディープ ラーニング アプローチでは、マーカーを使用しない特徴抽出が可能になりました。主流の深層学習手法は、合成データのみを使用し、ドメインのランダム化に依存してシミュレーションと実際のギャップを埋めます。これは、3D アノテーションの取得が労働集約的であるためです。この作業では、現実世界のデータに対する 3D 注釈の限界を超えています。オンラインのカメラとロボットのキャリブレーションが可能なエンドツーエンドのポーズ推定フレームワークと、トレーニングをラベルのない実世界のデータにスケーリングするための自己教師ありトレーニング方法を提案します。私たちのフレームワークは、ロボットのポーズを解決するためにディープ ラーニングとジオメトリック ビジョンを組み合わせており、パイプラインは完全に微分可能です。 Camera-to-Robot Pose Estimation Network (CtRNet) をトレーニングするために、前景セグメンテーションと微分可能なレンダリングを活用して画像レベルの自己監視を行います。姿勢予測はレンダラーによって視覚化され、入力画像での画像損失が逆伝播されてニューラル ネットワークがトレーニングされます。 2 つの公開された実際のデータセットに関する実験結果は、既存の作業に対するアプローチの有効性を確認しています。また、フレームワークをビジュアルサーボシステムに統合して、自動化タスクのためのリアルタイムの正確なロボット姿勢推定の可能性を実証します。
Solving the camera-to-robot pose is a fundamental requirement for vision-based robot control, and is a process that takes considerable effort and cares to make accurate. Traditional approaches require modification of the robot via markers, and subsequent deep learning approaches enabled markerless feature extraction. Mainstream deep learning methods only use synthetic data and rely on Domain Randomization to fill the sim-to-real gap, because acquiring the 3D annotation is labor-intensive. In this work, we go beyond the limitation of 3D annotations for real-world data. We propose an end-to-end pose estimation framework that is capable of online camera-to-robot calibration and a self-supervised training method to scale the training to unlabeled real-world data. Our framework combines deep learning and geometric vision for solving the robot pose, and the pipeline is fully differentiable. To train the Camera-to-Robot Pose Estimation Network (CtRNet), we leverage foreground segmentation and differentiable rendering for image-level self-supervision. The pose prediction is visualized through a renderer and the image loss with the input image is back-propagated to train the neural network. Our experimental results on two public real datasets confirm the effectiveness of our approach over existing works. We also integrate our framework into a visual servoing system to demonstrate the promise of real-time precise robot pose estimation for automation tasks.
updated: Tue Mar 21 2023 03:57:07 GMT+0000 (UTC)
published: Tue Feb 28 2023 05:55:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト