多くのロボット工学の問題の中心にあるのは、ドメイン間の対応を学習するという課題です。たとえば、模倣学習では、人間とロボットの間の対応を取得する必要があります。 sim-to-realには、物理シミュレータと実世界の間の対応が必要です。転移学習には、異なるロボット環境間の対応が必要です。この論文は、表現(視覚と内部状態)、物理パラメータ(質量と摩擦)、および形態(手足の数)が異なるドメイン間の対応を学習することを目的としています。重要なことに、対応は、2つのドメインからペアになっていないランダムに収集されたデータを使用して学習されます。サイクル整合性制約を使用して、2つのドメイン間で動的ロボットの動作を調整するダイナミクスサイクルを提案します。この対応が見つかると、2番目のドメインで追加の微調整を行うことなく、1つのドメインでトレーニングされたポリシーを別のドメインに直接転送できます。シミュレーションと実際のロボットの両方で、さまざまな問題領域にわたって実験を行います。私たちのフレームワークは、実際のロボットアームのキャリブレーションされていない単眼ビデオを、ペアのデータなしでシミュレートされたアームの動的な状態-アクション軌道に合わせることができます。結果のビデオデモンストレーションは、https://sjtuzq.github.io/cycle_dynamics.htmlで入手できます。
At the heart of many robotics problems is the challenge of learning correspondences across domains. For instance, imitation learning requires obtaining correspondence between humans and robots; sim-to-real requires correspondence between physics simulators and the real world; transfer learning requires correspondences between different robotics environments. This paper aims to learn correspondence across domains differing in representation (vision vs. internal state), physics parameters (mass and friction), and morphology (number of limbs). Importantly, correspondences are learned using unpaired and randomly collected data from the two domains. We propose dynamics cycles that align dynamic robot behavior across two domains using a cycle-consistency constraint. Once this correspondence is found, we can directly transfer the policy trained on one domain to the other, without needing any additional fine-tuning on the second domain. We perform experiments across a variety of problem domains, both in simulation and on real robot. Our framework is able to align uncalibrated monocular video of a real robot arm to dynamic state-action trajectories of a simulated arm without paired data. Video demonstrations of our results are available at: https://sjtuzq.github.io/cycle_dynamics.html .