Self-supervised 3D Shape and Viewpoint Estimation from Single Images for Robotics
  単一の入力画像からの3次元形状予測と視点推定を結合するための畳み込みニューラルネットワークを提示します。トレーニング中に、ネットワークは入力画像内のオブジェクトのシルエットから学習信号を取得します-自己監視の形式。 3D形状と視点のグラウンドトゥルースデータは必要ありません。このような弱い形式の監視に依存しているため、このアプローチは実際のデータに簡単に適用できます。私たちの方法は、形状推定と視点予測の両方について、自然画像上で合理的な定性的および定量的結果を生成することを示しています。以前のアプローチとは異なり、このメソッドはデータセット内の同じオブジェクトインスタンスの複数のビューを必要としないため、実用的なロボットシナリオでの適用性が大幅に拡大します。幻覚形状を使用して、シミュレーションとPR2ロボットの両方で実世界のオブジェクトを把握するタスクのパフォーマンスを向上させることで、それを紹介します。
We present a convolutional neural network for joint 3D shape prediction and viewpoint estimation from a single input image. During training, our network gets the learning signal from a silhouette of an object in the input image - a form of self-supervision. It does not require ground truth data for 3D shapes and the viewpoints. Because it relies on such a weak form of supervision, our approach can easily be applied to real-world data. We demonstrate that our method produces reasonable qualitative and quantitative results on natural images for both shape estimation and viewpoint prediction. Unlike previous approaches, our method does not require multiple views of the same object instance in the dataset, which significantly expands the applicability in practical robotics scenarios. We showcase it by using the hallucinated shapes to improve the performance on the task of grasping real-world objects both in simulation and with a PR2 robot.
updated: Thu Oct 17 2019 14:55:21 GMT+0000 (UTC)
published: Thu Oct 17 2019 14:55:21 GMT+0000 (UTC)
