この論文では、費用効果の高いロボットによる把握を容易にするために、シミュレーションからリアルへの6Dオブジェクトポーズ推定のための反復セルフトレーニングフレームワークを提案します。ビンピッキングシナリオを前提として、豊富な仮想データを合成するためのフォトリアリスティックシミュレーターを確立し、これを使用して初期ポーズ推定ネットワークをトレーニングします。次に、このネットワークは、ラベルのない実際のデータのポーズ予測を生成する教師モデルの役割を果たします。これらの予測を使用して、信頼できる結果を区別するための包括的な適応選択スキームをさらに設計し、それらを疑似ラベルとして活用して、実際のデータのポーズ推定のために学生モデルを更新します。疑似ラベルの品質を継続的に改善するために、トレーニングを受けた学生モデルを新しい教師として採用し、洗練された教師モデルを使用して実際のデータに再ラベル付けすることにより、上記の手順を繰り返します。公開ベンチマークと新しくリリースされたデータセットでメソッドを評価し、それぞれ11.49%と22.62%のADD(-S)の改善を達成しました。私たちの方法はまた、ロボットのビンピッキングの成功を19.54%改善することができ、ロボットアプリケーションのための反復的なsim-to-realソリューションの可能性を示しています。
In this paper, we propose an iterative self-training framework for sim-to-real 6D object pose estimation to facilitate cost-effective robotic grasping. Given a bin-picking scenario, we establish a photo-realistic simulator to synthesize abundant virtual data, and use this to train an initial pose estimation network. This network then takes the role of a teacher model, which generates pose predictions for unlabeled real data. With these predictions, we further design a comprehensive adaptive selection scheme to distinguish reliable results, and leverage them as pseudo labels to update a student model for pose estimation on real data. To continuously improve the quality of pseudo labels, we iterate the above steps by taking the trained student model as a new teacher and re-label real data using the refined teacher model. We evaluate our method on a public benchmark and our newly-released dataset, achieving an ADD(-S) improvement of 11.49% and 22.62% respectively. Our method is also able to improve robotic bin-picking success by 19.54%, demonstrating the potential of iterative sim-to-real solutions for robotic applications.