Scene-level Pose Estimation for Multiple Instances of Densely Packed Objects
  このホワイトペーパーでは、RGB-Dデータからの密集または非構造化パイル内のオブジェクトの複数インスタンスの堅牢なジョイント6Dポーズ推定を実現できる主要な機械学習操作を紹介します。最初の目的は、手動のラベル付けなしでセマンティックおよびインスタンス境界の検出器を学習することです。物理ベースのシミュレーションと組み合わせた敵対的トレーニングフレームワークを使用して、合成データと実際のデータで同様に動作する検出器を実現します。そのような検出器の確率的出力が与えられると、オブジェクトポーズの候補がサンプリングされます。 2番目の目的は、勾配ブーストツリーを介してシーン全体を説明するという点でその品質を表す各ポーズ候補の単一のスコアを自動的に学習することです。提案された方法は、観測されたシーンと仮定されたポーズに配置されたオブジェクトモデルとの間の表面および境界アライメントから導出された特徴を使用します。シーンレベルのマルチインスタンスポーズ推定は、衝突を回避するなどの制約を尊重しながら、学習した個々のスコアの合計を最大化する仮説を選択する整数線形計画法プロセスによって達成されます。この方法を評価するために、最先端のアプローチのための難しいセットアップを備えた密集したオブジェクトのデータセットが収集されます。このデータセットと公的なデータセットの実験は、合成データセットのみでトレーニングされている間、この方法が6Dポーズ精度の点で他の方法よりも大幅に優れていることを示しています。
This paper introduces key machine learning operations that allow the realization of robust, joint 6D pose estimation of multiple instances of objects either densely packed or in unstructured piles from RGB-D data. The first objective is to learn semantic and instance-boundary detectors without manual labeling. An adversarial training framework in conjunction with physics-based simulation is used to achieve detectors that behave similarly in synthetic and real data. Given the stochastic output of such detectors, candidates for object poses are sampled. The second objective is to automatically learn a single score for each pose candidate that represents its quality in terms of explaining the entire scene via a gradient boosted tree. The proposed method uses features derived from surface and boundary alignment between the observed scene and the object model placed at hypothesized poses. Scene-level, multi-instance pose estimation is then achieved by an integer linear programming process that selects hypotheses that maximize the sum of the learned individual scores, while respecting constraints, such as avoiding collisions. To evaluate this method, a dataset of densely packed objects with challenging setups for state-of-the-art approaches is collected. Experiments on this dataset and a public one show that the method significantly outperforms alternatives in terms of 6D pose accuracy while trained only with synthetic datasets.
updated: Fri Oct 11 2019 03:17:55 GMT+0000 (UTC)
published: Fri Oct 11 2019 03:17:55 GMT+0000 (UTC)
