arXiv reaDer
よく見る:ロボット操作のためのトランスフォーマーによる自己中心的ビューとサードパーソンビューのブリッジ
Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation
強化学習(RL)を使用して、視覚的なフィードバックから精度ベースの操作タスクを解決する方法を学ぶことで、従来のロボットシステムに必要なエンジニアリング作業を大幅に削減できます。ただし、特に前の作業で頻繁に使用されていた静的なサードパーソンカメラでは、視覚入力だけからきめ細かいモーター制御を実行することは困難です。エージェントが第三者のカメラとロボットの手首に取り付けられた自己中心的なカメラの両方から視覚的なフィードバックを受け取るロボット操作の設定を提案します。サードパーソンカメラは静止していますが、自己中心的なカメラを使用すると、ロボットは視覚を積極的に制御して正確な操作を支援できます。両方のカメラからの視覚情報を効果的に融合するために、あるビューから別のビューへ(およびその逆)の空間的注意をモデル化するクロスビュー注意メカニズムを備えたTransformerを使用し、学習した機能をRLポリシーへの入力として使用することをさらに提案します。私たちの方法は、強力なシングルビューとマルチビューのベースラインでの学習を改善し、キャリブレーションされていないカメラ、状態情報へのアクセスがなく、高度なタスクの変動性を備えた実際のロボットの一連の挑戦的な操作タスクに正常に転送します。ハンマー操作タスクでは、私たちの方法は75%の試行で成功しますが、マルチビューとシングルビューのベースラインではそれぞれ38%と13%です。
Learning to solve precision-based manipulation tasks from visual feedback using Reinforcement Learning (RL) could drastically reduce the engineering efforts required by traditional robot systems. However, performing fine-grained motor control from visual inputs alone is challenging, especially with a static third-person camera as often used in previous work. We propose a setting for robotic manipulation in which the agent receives visual feedback from both a third-person camera and an egocentric camera mounted on the robot's wrist. While the third-person camera is static, the egocentric camera enables the robot to actively control its vision to aid in precise manipulation. To fuse visual information from both cameras effectively, we additionally propose to use Transformers with a cross-view attention mechanism that models spatial attention from one view to another (and vice-versa), and use the learned features as input to an RL policy. Our method improves learning over strong single-view and multi-view baselines, and successfully transfers to a set of challenging manipulation tasks on a real robot with uncalibrated cameras, no access to state information, and a high degree of task variability. In a hammer manipulation task, our method succeeds in 75% of trials versus 38% and 13% for multi-view and single-view baselines, respectively.
updated: Wed Jan 19 2022 18:39:03 GMT+0000 (UTC)
published: Wed Jan 19 2022 18:39:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト