最近の研究では、デモンストレーションからの学習(LfD)と強化学習(RL)のバリエーションを使用して、ロボット操作のためのエンドツーエンドのトレーニングマルチタスク深部視覚運動ポリシーを実行できることが示されました。このホワイトペーパーでは、エンドツーエンドのLfDアーキテクチャの機能を、混乱したオブジェクト操作に拡張します。まず、合成オブジェクトを実数として受け入れる(ASOR)というデータ拡張手順を導入します。 ASORを使用して、暗黙的アソシエーションASOR-IAと明示的アテンションASOR-EAの2つのネットワークアーキテクチャを開発します。両方のアーキテクチャは、以前のアプローチと同じトレーニングデータ(整理された環境でのデモンストレーション)を使用します。実験結果は、ASOR-IAとASOR-EAが、以前のアプローチが成功しない混乱した環境での試行のかなりの部分で成功することを示しています。さらに、ASOR-IAとASOR-EAの両方が、すっきりした環境でも以前のアプローチよりも優れていることがわかります。ASOR-EAは、すっきりした環境で以前の最高のベースラインと比較して、クラッターでもパフォーマンスが向上しています。
Recent research demonstrated that it is feasible to end-to-end train multi-task deep visuomotor policies for robotic manipulation using variations of learning from demonstration (LfD) and reinforcement learning (RL). In this paper, we extend the capabilities of end-to-end LfD architectures to object manipulation in clutter. We start by introducing a data augmentation procedure called Accept Synthetic Objects as Real (ASOR). Using ASOR we develop two network architectures: implicit attention ASOR-IA and explicit attention ASOR-EA. Both architectures use the same training data (demonstrations in uncluttered environments) as previous approaches. Experimental results show that ASOR-IA and ASOR-EA succeed ina significant fraction of trials in cluttered environments where previous approaches never succeed. In addition, we find that both ASOR-IA and ASOR-EA outperform previous approaches even in uncluttered environments, with ASOR-EA performing better even in clutter compared to the previous best baseline in an uncluttered environment.