arXiv reaDer
Multi-path Learning for Object Pose Estimation Across Domains
 複数の3DモデルのシミュレーションされたRGBビューでトレーニングされたオブジェクトポーズ推定のためのスケーラブルなアプローチを紹介します。トレーニング中に見られるすべてのオブジェクトの暗黙的な方向を説明するだけでなく、トレーニングされていないオブジェクトのビューを関連付けることもできるオブジェクトビューのエンコーディングを学びます。当社のシングルエンコーダーマルチデコーダーネットワークは、「マルチパス学習」と呼ばれる手法を使用してトレーニングされます。エンコーダーはすべてのオブジェクトで共有されますが、各デコーダーは1つのオブジェクトのビューのみを再構築します。その結果、さまざまなインスタンスのビューを潜在空間で分離する必要がなく、共通の機能を共有できます。結果として得られるエンコーダーは、合成データから実際のデータに至るまで、さまざまなインスタンス、カテゴリ、モデルタイプ、データセットにわたって一般化されます。学習したエンコーディング、その一般化、ModelNet40およびT-LESSデータセットの反復的な改良戦略を体系的に調査します。 6Dオブジェクト検出パイプラインは、複数のオブジェクトを共同でトレーニングしているにもかかわらず、競合するアプローチよりもはるかに低い実行時間でT-LESSの最先端の結果を実現します。
We introduce a scalable approach for object pose estimation trained on simulated RGB views of multiple 3D models together. We learn an encoding of object views that does not only describe an implicit orientation of all objects seen during training, but can also relate views of untrained objects. Our single-encoder-multi-decoder network is trained using a technique we denote "multi-path learning": While the encoder is shared by all objects, each decoder only reconstructs views of a single object. Consequently, views of different instances do not have to be separated in the latent space and can share common features. The resulting encoder generalizes well from synthetic to real data and across various instances, categories, model types and datasets. We systematically investigate the learned encodings, their generalization, and iterative refinement strategies on the ModelNet40 and T-LESS dataset. Despite training jointly on multiple objects, our 6D Object Detection pipeline achieves state-of-the-art results on T-LESS at much lower runtimes than competing approaches.
updated: Fri Apr 03 2020 07:00:33 GMT+0000 (UTC)
published: Thu Aug 01 2019 00:01:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト