arXiv reaDer
ロボットに魚を教える: 1 分間のデモンストレーションからの多彩な模倣
Teach a Robot to FISH: Versatile Imitation from One Minute of Demonstrations
模倣学習はロボットをトレーニングするための効率的なツールキットを提供してくれますが、環境の変化に強い学習スキルは依然として大きな課題です。現在のアプローチは、環境の変動にまたがる大量のデモンストレーション、または状態の推定を必要とする手作りの報酬関数のいずれかに依存することにより、この課題に対処しています。どちらの方向も、高速な模倣には拡張できません。この作業では、1 分未満の人間のデモンストレーションで堅牢な視覚スキルを学習できる新しい模倣学習アプローチである、人間からのスキルの高速模倣 (FISH) を紹介します。デモンストレーションのオフライン模倣によって訓練された弱い基本ポリシーが与えられると、FISH は、ロボットの動作とデモンストレーションの間の「一致」に対応する報酬を計算します。これらの報酬は、基本ポリシーに追加される残りのポリシーを適応的に更新するために使用されます。すべてのタスクにわたって、FISH は、デモンストレーションでは見られなかったオブジェクト構成のデモンストレーションを模倣するために、最大 20 分間のインタラクティブな学習を必要とします。重要なことに、FISH は汎用性があるように構築されているため、ロボットの形態 (xArm、Allegro、Stretch など) やカメラ構成 (三人称視点、手持ち視点など) で使用できます。 9 つの異なるタスクに関する実験的評価では、FISH が 93% の平均成功率を達成し、これは従来の最先端の方法よりも約 3.8 倍高いことが示されています。
While imitation learning provides us with an efficient toolkit to train robots, learning skills that are robust to environment variations remains a significant challenge. Current approaches address this challenge by relying either on large amounts of demonstrations that span environment variations or on handcrafted reward functions that require state estimates. Both directions are not scalable to fast imitation. In this work, we present Fast Imitation of Skills from Humans (FISH), a new imitation learning approach that can learn robust visual skills with less than a minute of human demonstrations. Given a weak base-policy trained by offline imitation of demonstrations, FISH computes rewards that correspond to the "match" between the robot's behavior and the demonstrations. These rewards are then used to adaptively update a residual policy that adds on to the base-policy. Across all tasks, FISH requires at most twenty minutes of interactive learning to imitate demonstrations on object configurations that were not seen in the demonstrations. Importantly, FISH is constructed to be versatile, which allows it to be used across robot morphologies (e.g. xArm, Allegro, Stretch) and camera configurations (e.g. third-person, eye-in-hand). Our experimental evaluations on 9 different tasks show that FISH achieves an average success rate of 93%, which is around 3.8x higher than prior state-of-the-art methods.
updated: Thu Mar 02 2023 18:57:38 GMT+0000 (UTC)
published: Thu Mar 02 2023 18:57:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト