最近の進歩により、広範なタスクで人間を支援するために使用される機械学習システムが急増しています。ただし、これらのシステムの正確、信頼性、およびリソース効率の高い運用にはまだほど遠い状態です。ロボットの知覚では、物体検出と姿勢推定のための畳み込みニューラルネットワーク(CNN)が最近広く使用されています。ただし、ニューラルネットワークはトレーニングプロセス中に過剰適合を起こすことが知られており、特に敵対的なシナリオに対して脆弱な目に見えない条件では堅牢性が低下します。この作業では、判別CNNと生成推論方法の相対的な強さを組み合わせて堅牢な推定を実現することを目的とした、2段階のオブジェクト検出および姿勢推定システムとして、Generative Robust Inference and Perception(GRIP)を提案します。私たちの結果は、サンプルベースの生成的推論の第2段階がCNNによる誤ったオブジェクト検出から回復し、敵対的条件で堅牢な推定を生成できることを示しています。最先端の学習ベースのポーズ推定器と比較し、暗くて散らかった環境でのピックアンドプレース操作を通じて、GRIPの堅牢性の有効性を実証します。
Recent advancements have led to a proliferation of machine learning systems used to assist humans in a wide range of tasks. However, we are still far from accurate, reliable, and resource-efficient operations of these systems. For robot perception, convolutional neural networks (CNNs) for object detection and pose estimation are recently coming into widespread use. However, neural networks are known to suffer overfitting during training process and are less robust within unseen conditions, which are especially vulnerable to adversarial scenarios. In this work, we propose Generative Robust Inference and Perception (GRIP) as a two-stage object detection and pose estimation system that aims to combine relative strengths of discriminative CNNs and generative inference methods to achieve robust estimation. Our results show that a second stage of sample-based generative inference is able to recover from false object detection by CNNs, and produce robust estimations in adversarial conditions. We demonstrate the efficacy of GRIP robustness through comparison with state-of-the-art learning-based pose estimators and pick-and-place manipulation in dark and cluttered environments.