ほとんどの自己監視型 6D オブジェクトの姿勢推定方法は、追加の深度情報を使用するか、2D セグメンテーション マスクの正確な注釈に依存することしかできないため、その適用範囲が制限されます。この論文では、補助情報なしで純粋な RGB 画像を使用してトレーニングできる 6D オブジェクトの姿勢推定方法を提案します。まず、ターゲットの 3D メッシュからレンダリングされた合成画像でトレーニングされたネットワークから大まかなポーズの初期化を取得します。次に、複数の異なるビューからの合成画像と実際の画像のペアのジオメトリ制約を活用した改良戦略を導入します。このジオメトリ制約を、動的に生成された擬似ラベルを使用したトレーニング画像間のピクセルレベルのフロー一貫性として定式化します。私たちは 3 つの困難なデータセットでこの手法を評価し、2D アノテーションや追加の深度画像を使用せずに、最先端の自己教師あり手法を大幅に上回るパフォーマンスを実証しました。
Most self-supervised 6D object pose estimation methods can only work with additional depth information or rely on the accurate annotation of 2D segmentation masks, limiting their application range. In this paper, we propose a 6D object pose estimation method that can be trained with pure RGB images without any auxiliary information. We first obtain a rough pose initialization from networks trained on synthetic images rendered from the target's 3D mesh. Then, we introduce a refinement strategy leveraging the geometry constraint in synthetic-to-real image pairs from multiple different views. We formulate this geometry constraint as pixel-level flow consistency between the training images with dynamically generated pseudo labels. We evaluate our method on three challenging datasets and demonstrate that it outperforms state-of-the-art self-supervised methods significantly, with neither 2D annotations nor additional depth images.