6D ポーズ認識は、ロボットによる把持の成功に重要な要素であり、最近のディープラーニング ベースのアプローチは、ベンチマークで目覚ましい結果を達成しています。ただし、実際のアプリケーションでの一般化機能は不明のままです。このギャップを克服するために、sim-to-real データ生成と 6D ポーズ推定のための新しいフレームワークである 6IMPOSE を導入します。 6IMPOSE は 4 つのモジュールで構成されています。1 つ目は、3D ソフトウェア スイートの Blender を使用して 6D ポーズ アノテーション付きの合成 RGBD イメージ データセットを作成するデータ生成パイプラインです。次に、提案されたパイプラインを使用して生成された 5 つの家庭用オブジェクトの注釈付き RGBD データセット。 3 つ目は、オブジェクト検出器 YOLO-V4 と、時間に敏感なロボット工学アプリケーション向けに最適化された 6D ポーズ推定アルゴリズム PVN3D の合理化されたリアルタイム バージョンを統合する、リアルタイムの 2 段階 6D ポーズ推定アプローチです。 4 つ目は、ビジョン システムをロボットによる把持実験に統合しやすくするために設計されたコードベースです。私たちのアプローチは、大量の写真のようにリアルな RGBD 画像の効率的な生成と、トレーニングされた推論モデルのロボット把持実験への転送の成功を実証し、さまざまな照明条件の下で雑然とした背景から 5 つの異なる家庭用オブジェクトを把握する際に 87% の全体的な成功率を達成しました。 .これは、元の PVN3D アルゴリズムの一般化とパフォーマンスの欠点を克服する、データ生成とドメインのランダム化手法の微調整、および推論パイプラインの最適化によって可能になります。最後に、コード、合成データセット、すべての事前トレーニング済みモデルを Github で利用できるようにします。
6D pose recognition has been a crucial factor in the success of robotic grasping, and recent deep learning based approaches have achieved remarkable results on benchmarks. However, their generalization capabilities in real-world applications remain unclear. To overcome this gap, we introduce 6IMPOSE, a novel framework for sim-to-real data generation and 6D pose estimation. 6IMPOSE consists of four modules: First, a data generation pipeline that employs the 3D software suite Blender to create synthetic RGBD image datasets with 6D pose annotations. Second, an annotated RGBD dataset of five household objects generated using the proposed pipeline. Third, a real-time two-stage 6D pose estimation approach that integrates the object detector YOLO-V4 and a streamlined, real-time version of the 6D pose estimation algorithm PVN3D optimized for time-sensitive robotics applications. Fourth, a codebase designed to facilitate the integration of the vision system into a robotic grasping experiment. Our approach demonstrates the efficient generation of large amounts of photo-realistic RGBD images and the successful transfer of the trained inference model to robotic grasping experiments, achieving an overall success rate of 87% in grasping five different household objects from cluttered backgrounds under varying lighting conditions. This is made possible by the fine-tuning of data generation and domain randomization techniques, and the optimization of the inference pipeline, overcoming the generalization and performance shortcomings of the original PVN3D algorithm. Finally, we make the code, synthetic dataset, and all the pretrained models available on Github.