このペーパーでは、視覚運動ポリシー学習の一般化パフォーマンスとサンプル効率を改善するために、自己監視型通信を使用して調査します。これまでの研究では、視覚運動ポリシーの視覚部分をトレーニングするために、主に自動エンコード、ポーズベースの損失、エンドツーエンドのポリシー最適化などのアプローチが使用されてきました。代わりに、自己監視の密な視覚通信トレーニングを使用するアプローチを提案し、これにより、適度なデータ量で驚くほど高い一般化パフォーマンスで視覚運動ポリシー学習が可能になることを示します:模倣学習を使用して、わずか50デモンストレーション。学習したポリシーは、オブジェクトのクラス全体で一般化し、変形可能なオブジェクト構成に反応し、さまざまなバックグラウンドでテクスチャレスの対称オブジェクトを操作できます。これらはすべて、閉ループのリアルタイムのビジョンベースのポリシーです。シミュレートされた模倣学習実験は、自動エンコードおよびエンドツーエンドのトレーニングと比較して、対応トレーニングがサンプルの複雑さと一般化の利点を提供することを示唆しています。
In this paper we explore using self-supervised correspondence for improving the generalization performance and sample efficiency of visuomotor policy learning. Prior work has primarily used approaches such as autoencoding, pose-based losses, and end-to-end policy optimization in order to train the visual portion of visuomotor policies. We instead propose an approach using self-supervised dense visual correspondence training, and show this enables visuomotor policy learning with surprisingly high generalization performance with modest amounts of data: using imitation learning, we demonstrate extensive hardware validation on challenging manipulation tasks with as few as 50 demonstrations. Our learned policies can generalize across classes of objects, react to deformable object configurations, and manipulate textureless symmetrical objects in a variety of backgrounds, all with closed-loop, real-time vision-based policies. Simulated imitation learning experiments suggest that correspondence training offers sample complexity and generalization benefits compared to autoencoding and end-to-end training.