オブジェクトポーズ推定により、ロボットは環境を理解して対話することができます。新しい状況に適応するには、合成データを使用したトレーニングが必要です。残念ながら、ドメインシフトの下でのポーズ推定、つまり、合成データのトレーニングと実世界でのテストは困難です。ディープラーニングベースのアプローチは、現在、エンコーダーデコーダーネットワークを使用する場合に最適に機能しますが、通常、シーンの特性が異なる新しいシナリオに一般化することはありません。ローカルからグローバルへのオブジェクト情報がより適切に表現されるため、エンコーダ-デコーダネットワークの代わりにパッチベースのアプローチが合成から実際への転送に適していると主張します。そのために、特殊な特徴ピラミッドネットワークに基づいて、さまざまな特徴マップの解像度でポーズ仮説を並行して作成するためのマルチスケール特徴を計算する新しいアプローチを紹介します。私たちのシングルショットポーズ推定アプローチは、複数の標準データセットで評価され、最先端技術を最大35%上回っています。また、合成データを使用して新しい環境に一般化することの利点を実証するために、実世界で把握実験を行います。
Object pose estimation enables robots to understand and interact with their environments. Training with synthetic data is necessary in order to adapt to novel situations. Unfortunately, pose estimation under domain shift, i.e., training on synthetic data and testing in the real world, is challenging. Deep learning-based approaches currently perform best when using encoder-decoder networks but typically do not generalize to new scenarios with different scene characteristics. We argue that patch-based approaches, instead of encoder-decoder networks, are more suited for synthetic-to-real transfer because local to global object information is better represented. To that end, we present a novel approach based on a specialized feature pyramid network to compute multi-scale features for creating pose hypotheses on different feature map resolutions in parallel. Our single-shot pose estimation approach is evaluated on multiple standard datasets and outperforms the state of the art by up to 35%. We also perform grasping experiments in the real world to demonstrate the advantage of using synthetic data to generalize to novel environments.