入力点群座標フレームの選択が、3D 点群からの操作スキルの学習にどのように影響するかを研究します。キャプチャされたロボットとオブジェクトの相互作用の点群を正規化するためのさまざまな座標フレームの選択肢が存在します。さまざまなフレームがエージェントの学習パフォーマンスに大きな影響を与え、その傾向は 3D バックボーン ネットワーク全体で同様であることがわかりました。特に、エンドエフェクタ フレームとターゲット パーツ フレームは、多くのタスクで一般的に使用されるワールド フレームとロボット ベース フレームよりも高いトレーニング効率を実現します。これは、時間ステップ全体で点群間の有用な位置合わせを提供し、視覚を単純化できるためです。モジュール学習。さらに、パフォーマンスの良いフレームはタスクによって異なり、タスクによっては複数のフレーム候補からメリットが得られる場合があります。したがって、FrameMiners が候補フレームを適応的に選択し、タスクに依存しない方法でそれらのメリットを融合することを提案します。実験的に、FrameMiners は、ManiSkill と OCRTOC から適用された 5 つの完全に物理的な操作タスクで、最高の単一フレーム バージョンよりも同等または大幅に高いパフォーマンスを達成します。既存のカメラの配置を変更したり、カメラを追加したりすることなく、点群フレーム マイニングは、3D 操作の学習を改善するための無料のランチとして機能します。
We study how choices of input point cloud coordinate frames impact learning of manipulation skills from 3D point clouds. There exist a variety of coordinate frame choices to normalize captured robot-object-interaction point clouds. We find that different frames have a profound effect on agent learning performance, and the trend is similar across 3D backbone networks. In particular, the end-effector frame and the target-part frame achieve higher training efficiency than the commonly used world frame and robot-base frame in many tasks, intuitively because they provide helpful alignments among point clouds across time steps and thus can simplify visual module learning. Moreover, the well-performing frames vary across tasks, and some tasks may benefit from multiple frame candidates. We thus propose FrameMiners to adaptively select candidate frames and fuse their merits in a task-agnostic manner. Experimentally, FrameMiners achieves on-par or significantly higher performance than the best single-frame version on five fully physical manipulation tasks adapted from ManiSkill and OCRTOC. Without changing existing camera placements or adding extra cameras, point cloud frame mining can serve as a free lunch to improve 3D manipulation learning.